habra.16 / [Из песочницы] Как различать британскую и американскую литературу с помощью машинного обучения

[#] [Из песочницы] Как различать британскую и американскую литературу с помощью машинного обучения
habrabot(difrex,1) — All
2017-01-18 21:30:04

Однажды мне стало интересно, отличается ли британская и американская литература с точки зрения выбора слов, и если отличается, удастся ли мне обучить классификатор, который бы различал литературные тексты с точки зрения частоты использованных слов. Различать тексты, написанные на разных языках, довольно легко, мощность пересечения множества слов небольшая относительно множества слов в выборке. Классификация текста по категориям «наука», «христианство», «компьютерная графика», «атеизм», — всем известный [hello world][1] среди задач по работе с частотностью текста. Передо мной стояла более сложная задача, так как я сравнивала два диалекта одного языка, а тексты не имели общей смысловой направленности.

![image][2]

[Читать дальше →][3]

[1]: http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
[2]: https://habrastorage.org/files/ff8/ce9/fe7/ff8ce9fe774e44fcb971d7e101a48c9e.jpg
[3]: https://habrahabr.ru/post/319826/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut