[#] Стандартизация записей
habrabot(difrex,1) — All
2016-07-19 13:00:43


![][1]


> Я волком бы выгрыз бюрократизм!
> Владимир Маяковский

Рассмотрим в этой статье проблему стандартизации записей. Стандартизация, прежде всего, нужна при импорте миллионов записей, накопившихся за десятилетия. Данные, имеющие разную кодировку страниц из разных автоматизированных систем, собираются в единую базу информационной системы. В таком случае, обращение к функциям чтения строк по ascii, типа QRchar себя не оправдывает, поскольку формат Юникода от записи к записи отличается. К тому же кириллица в словах часто бывает перемешана с цифрами и латиницей (например, когда вместо 'ч' пишется '4'). При этом прямая циклическая замена цифр и латиницы на кириллицу в строке невозможна, так как цифры с латиницей встречаются в и обозначениях.

Пользовательские справочники позволяют отслеживать и фиксировать закономерности неправильного написания тех или иных фрагментов, указывая, на что их менять в общем цикле. По справочнику окончаний можно распознать часть речи, а по части речи определить алгоритм передвижения слова в строке для приведения к шаблонному виду. [Читать дальше →][2]

[1]: https://habrastorage.org/files/112/c1c/ee2/112c1cee2456438bae7f735f48542970.jpg
[2]: https://habrahabr.ru/post/304576/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut