Привет, хабр! ![image][1] В [прошлый раз][2] мы познакомились с инструментом **Apache Spark**, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, **Large Scale Machine Learning**. Сегодня мы рассмотрим подробнее библиотеку **MlLib**, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. **Feature Engineering**, о котором мы [говорили ранее][3], причем [не один раз][4]). [Читать дальше →][5]
[1]:
https://spark.apache.org/images/spark-stack.png
[2]:
http://habrahabr.ru/post/250811/
[3]:
http://habrahabr.ru/post/248129/
[4]:
http://habrahabr.ru/post/249759/
[5]:
http://habrahabr.ru/post/251471/#habracut