habra.14 / Обучение на больших данных: Spark MLlib

[#] Обучение на больших данных: Spark MLlib
habrabot(difrex,1) — All
2015-02-26 21:00:02

Привет, хабр! ![image][1] В [прошлый раз][2] мы познакомились с инструментом **Apache Spark**, который в последнее время становится чуть ли не самым популярным средством для обработки больших данных и в частности, **Large Scale Machine Learning**. Сегодня мы рассмотрим подробнее библиотеку **MlLib**, а именно — покажем, как решать задачи машинного обучения — классификации, регресии, кластеризации, а также коллаборативной фильтрации. Кроме этого покажем, как можно исследовать признаки с целью отбора и выделения новых (т.н. **Feature Engineering**, о котором мы [говорили ранее][3], причем [не один раз][4]). [Читать дальше →][5]

[1]: https://spark.apache.org/images/spark-stack.png
[2]: http://habrahabr.ru/post/250811/
[3]: http://habrahabr.ru/post/248129/
[4]: http://habrahabr.ru/post/249759/
[5]: http://habrahabr.ru/post/251471/#habracut