[#] Как «Дадата» ищет дубли в списках торговых точек
habrabot(difrex,1) — All
2017-11-28 20:00:08


![][1]

Наши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.

Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:

1. Евразия.
2. «САКУРА» Японская кухня.
3. Доминант.
4. Магазин-бутик «Евразия».
5. Милениум, ООО, продуктовый магазин.
6. Киви/ООО/Челябинск.
7. Супермаркет эко-продуктов «Доминант».

Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.

А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
[Что за проблемы и как мы их решаем][2]

[1]: https://habrastorage.org/webt/qk/v_/bn/qkv_bngkc6ex8gld976rfg_aa0u.jpeg
[2]: https://habrahabr.ru/post/343150/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut