У меня есть сайт со статьями схожей тематики. На сайте было две проблемы: спамерские сообщения и дубликаты статей, причём дубликаты часто являлись не точными копиями. Данный пост повествует о том, как я решил эти проблемы. Дано:
* общее количество статей 140 000;
* количество спама: примерно 5%;
* количество не чётких дубликатов: примерно 75%;
Задача: избавиться от спама и дубликатов, а так же не допустить их дальнейшего появления. ![][1] [Читать дальше →][2]
[1]: //habrastorage.org/files/d3d/41e/dab/d3d41edab5924e50b37d2d85b9aab9a6.jpg
[2]:
http://habrahabr.ru/post/252265/#habracut