[#] Поиск текстов, не соответствующих тематике и нахождение похожих статей
habrabot(difrex,1) — All
2015-03-06 07:30:06


У меня есть сайт со статьями схожей тематики. На сайте было две проблемы: спамерские сообщения и дубликаты статей, причём дубликаты часто являлись не точными копиями. Данный пост повествует о том, как я решил эти проблемы. Дано:

* общее количество статей 140 000;
* количество спама: примерно 5%;
* количество не чётких дубликатов: примерно 75%;

Задача: избавиться от спама и дубликатов, а так же не допустить их дальнейшего появления. ![][1] [Читать дальше →][2]

[1]: //habrastorage.org/files/d3d/41e/dab/d3d41edab5924e50b37d2d85b9aab9a6.jpg
[2]: http://habrahabr.ru/post/252265/#habracut