habra.16 / Нечёткое сравнение строк: пойми меня, если сможешь

[#] Нечёткое сравнение строк: пойми меня, если сможешь
habrabot(difrex,1) — All
2017-10-30 11:00:17

![image][1]
Привет!
На естественном языке сказать об одном и том же факте можно бесконечным числом способов. Можно переставлять слова местами, заменять их на синонимы, склонять по падежам (если говорим о языке с падежами) и тд.

Необходимость определять схожесть двух фраз возникла при решении одной небольшой практической задачи. Я не использовал машинное обучение, не вил нейронные сети, но использовал простые метрики и собранную статистику для калибровки коэффициентов.

Результатом работы, описанием процесса, кодом на git'е готов поделиться с вами.

Итак, кратко задачу можно озвучить так: _«С определенной периодичностью из различных источников приходят актуальные новости. Необходимо фильтровать их таким образом, чтобы на выходе не было двух новостей об одном и том же факте.»_
> **Предупреждение:** в статье присутствуют заголовки реальных новостей. Я отношусь к ним исключительно как к рабочему материалу, не представляю какую-либо точку зрения на политическую или экономическую ситуацию в какой бы то ни было стране.[Читать дальше →][2]

[1]: https://habrastorage.org/webt/tn/3q/pj/tn3qpjtu3a5fcq8grdhzxwxdpma.jpeg
[2]: https://habrahabr.ru/post/341148/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut