[#] [Из песочницы] Автоматическое определение тональности текста (Sentiment Analysis)
habrabot(difrex,1) — All
2015-07-21 16:00:02


За недолгое время моего процесса обучения я понял одну вещь – знаниями нужно делиться. Осознал я это давно, но лень перебороть и найти время не всегда получается. Речь в этой статье пойдет про использование различных методов машинного обучения для решения проблем, связанных с обработкой естественного языка (NLP). Одной из таких проблем является автоматическое определение эмоциональной окраски (позитивный, негативный, нейтральный) текстовых данных, то есть анализа тональности (sentiment analysis). Цель этой задачи состоит в определении, является ли данный текст (допустим обзор фильма или комментарии) положительным, отрицательным или нейтральным по своему влиянию на репутацию конкретного объекта. Трудность анализа тональности заключается в присутствии эмоционально обогащенного языка — сленг, многозначность, неопределенность, сарказм, все эти факторы вводят в заблуждение не только людей, но и компьютеров. ![][1] На хабре уже не раз появлялись статьи связанные с определением тональности [1][2], [2][3], [3][4]. Да и вообще, эта тема является одной из самых обсуждаемых во всем мире в последнее время [1, 2, 3, 4]. Сразу обговорю, что в этой статье особо никаких новшеств вы не найдете, данный материал скорее всего может послужит туториалом для новичков в сфере машинного обучения и NLP, коим я и являюсь. Основной же материал, который я использовал вы можете найти [по этой ссылке][5]. Весь исходный код вы можете найти [по этой ссылке][6]. Итак, в чем же состоит проблема и как ее решить? [Читать дальше →][7]

[1]: http://www.dataweave.in/img/xmen_sentiment.png
[2]: http://habrahabr.ru/post/149605/
[3]: http://habrahabr.ru/post/247299/
[4]: http://habrahabr.ru/post/146903/
[5]: https://www.kaggle.com/c/word2vec-nlp-tutorial
[6]: https://github.com/wendykan/DeepLearningMovies/blob/master/
[7]: http://habrahabr.ru/post/263171/#habracut