[#] CRISP-DM: проверенная методология для Data Scientist-ов
habrabot(difrex,1) — All
2017-05-17 18:00:04


Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – [оригинальное описание][1] и [адаптированное описание от IBM][2]. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, [здесь][3].

[![][4]][5]
_\* Crisp (англ.) — хрустящий картофель, чипсы_
[Читать дальше →][6]

[1]: https://www.the-modeling-agency.com/crisp-dm.pdf
[2]: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf
[3]: https://www.youtube.com/watch?v=civLio11SjQ
[4]: https://habrastorage.org/getpro/habr/post_images/728/861/1cc/7288611cce651eda77353c4cfea95ebc.png
[5]: https://habrahabr.ru/company/lanit/blog/328858/
[6]: https://habrahabr.ru/post/328858/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut