Привет, хабр! ![][1] **\#\{Data Science для новичков\}** Меня зовут Глеб Морозов, мы с Вами уже знакомы по предыдущим статьям. По многочисленным просьбам продолжаю описывать опыт своего участия в образовательных проектах [MLClass.ru][2] (кстати, кто еще не успел — до конца еще можно [получить материалы прошедших курсов][3] — это, наверное, самый краткий и максимально практичный курс по анализу данных, который можно себе представить). Данная работа описывает мою попытку создать модель для предсказания выживших пассажиров «Титаника». Основная задача — тренировка в использовании инструментов применяемых в Data Science для анализа данных и презентации результатов исследования, **поэтому данная статья будет очень и очень длинной**. Основное внимание уделено исследовательскому анализу (**exploratory research**) и работе по созданию и выбору предикторов (**feature engineering**). Модель создаётся в рамках соревнования **Titanic: Machine Learning from Disaster** проходящего на сайте Kaggle. В своей работе я буду использовать язык «R». [Читать дальше →][4]
[1]:
https://habrastorage.org/files/c3e/cde/5b7/c3ecde5b78cd41e89b09f79af46311bb.png
[2]:
http://dscourse.mlclass.ru/
[3]:
http://dscourse.mlclass.ru/
[4]:
http://habrahabr.ru/post/270973/#habracut