Привет, хабр! ![][1] В предыдущих двух постах ([раз][2], [два][3]) мы расмотрели основные алгоритмы и техники, применяющиеся участниками соревнований [Kaggle][4]. Сегодня хотелось бы пойти дальше и поговорить про то, с какими трудностями встречаются исследователи при разработке алгоритмов в случае, когда данных очень много и обучаться приходится на выборках, которые не помещаются в память. Сразу стоит отметить, что это происходит довольно часто, [даже на самом Kaggle][5] (в данной задаче обучающая выборка имеет обьем в несколько гигабайт и новичку может быть просто не понятно, что с этим делать). Ниже мы рассмотрим алгоритмы машинного обучения и инструменты, справляющиеся с данной проблемой. [Читать дальше →][6]
[1]: //habrastorage.org/files/c7d/347/66a/c7d34766a2074fe48515fe66d2c6484c.png
[2]:
http://habrahabr.ru/post/247751/
[3]:
http://habrahabr.ru/post/248129/
[4]:
http://www.kaggle.com
[5]:
http://www.kaggle.com/c/avazu-ctr-prediction
[6]:
http://habrahabr.ru/post/248779/#habracut