Однажды мне стало интересно, отличается ли британская и американская литература с точки зрения выбора слов, и если отличается, удастся ли мне обучить классификатор, который бы различал литературные тексты с точки зрения частоты использованных слов. Различать тексты, написанные на разных языках, довольно легко, мощность пересечения множества слов небольшая относительно множества слов в выборке. Классификация текста по категориям «наука», «христианство», «компьютерная графика», «атеизм», — всем известный [hello world][1] среди задач по работе с частотностью текста. Передо мной стояла более сложная задача, так как я сравнивала два диалекта одного языка, а тексты не имели общей смысловой направленности.
![image][2]
[Читать дальше →][3]
[1]:
http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
[2]:
https://habrastorage.org/files/ff8/ce9/fe7/ff8ce9fe774e44fcb971d7e101a48c9e.jpg
[3]:
https://habrahabr.ru/post/319826/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut