Хочу поделиться опытом своего первого участия в kaggle конкурсе (учебный [Bag of Words][1]). И хотя мне не удалось достичь поражающих воображение результатов, я расскажу о том, как искала и находила способы улучшить примеры “учебника” (для этого сами примеры тоже кратко опишу), а также остановлю внимание на разборе своих просчетов. Должна предупредить, что статья будет интересна прежде всего новичкам в области text mining. Тем не менее, большинство методов я описываю кратко и упрощенно, давая при этом ссылки на более точные определения, поскольку цель моя — обзор практики, а не теории. К сожалению, конкурс уже завершился, но прочитать материалы к нему все равно может быть полезно. Ссылка на код к статье [тут][2]. [Читать дальше →][3]
[1]:
https://www.kaggle.com/c/word2vec-nlp-tutorial
[2]:
https://github.com/Jaylla/NlpKaggleTraining
[3]:
http://habrahabr.ru/post/263399/#habracut