Прогнозування пасажирів, які вижили під час катастрофи «Титаніка», за допомогою дерева прийняття рішень.

Ключові слова: машинне навчання, аналіз даних, дерева прийняття рішень, прогнозування, платформа Kaggle.

Анотація

У статті запропоновано застосування методу дерева прийняття рішень для прогнозування пасажирів, які вижили в результаті катастрофи лайнера «Титанік». У якості вхідних даних використано набори даних «Titanic – Machine Learning from Disaster», що наявні у відкритому доступі на платформі Kaggle. Дерева прийняття рішень добре підходять для вирішення задач класифікації, а їхня простота інтерпретації робить цей метод кращим вибором серед інших алгоритмів машинного навчання. У навчальному наборі даних було виконано модифікацію, щоб заповнити відсутні значення. Оцінку розподілу якісних і кількісних ознак даних та пошуку в них закономірностей здійснено за допомогою візуального аналізу даних, що дало змогу виділити ознаки пасажирів, які корелюють з їхнім виживанням найбільше, і відповідно покращити набір даних. Дерево прийняття рішень для кінцевого набору даних побудовано за допомогою бібліотеки scikit-learn (sklearn), яка надає потужні інструменти для машинного навчання в Python. Точність побудованого дерева рішень становить 77% на відкладеній вибірці. Подальше дослідження застосування дерева прийняття рішень для даного набору даних може бути проведено шляхом використання методу налаштування гіперпараметрів дерева (hyperparameter tuning), який допоможе покращити точність побудованого дерева рішень.

Посилання

1. Лук’янюк В. (2017). Цей день в історії: Загибель «Титаніка».
2. Ai Yu. (2023). Predicting Titanic Survivors by Using Machine Learning, Highlights in Science, Engineering and Technology, 34, 360-367
3. Haque MA, Shivaprasad G. & Guruprasad G. (2021). Passenger data analysis of Titanic using machine learning approach in the context of chances of surviving the disaster, IOP Conference Series: Materials Science and Engineering, 1065(1)
4. Singh A., Saraswat S. & Faujdar N. (2017). Analyzing Titanic disaster using machine learning algorithms, International Conference on Computing, Communication and Automation (ICCCA), Greater Noida, India, 406-411
5. Singh K., Nagpal R. & Sehgal R. (2020). Exploratory Data Analysis and Machine Learning on Titanic Disaster Dataset, 10th International Conference on Cloud Computing, Data Science & Engineering (Confluence), Noida, India, 320-326
Опубліковано
2024-06-16
Як цитувати
Морохович, В., Лях, І., Хом’як , М., & Морохович, Б. (2024). Прогнозування пасажирів, які вижили під час катастрофи «Титаніка», за допомогою дерева прийняття рішень. КОМП’ЮТЕРНО-ІНТЕГРОВАНІ ТЕХНОЛОГІЇ: ОСВІТА, НАУКА, ВИРОБНИЦТВО, (55), 161-166. https://doi.org/10.36910/6775-2524-0560-2024-55-20
Розділ
Інформатика та обчислювальна техніка