[#] Разделение текста на предложения с помощью Томита-парсера
habrabot(difrex,1) — All
2017-01-11 12:30:03


Чтобы подготовить русскоязычные тексты для дальнейшего анализа, мне однажды понадобилось разбить их на предложения. Разумеется, автоматически. Что приходит на ум в первую очередь, если нужно разделить текст на предложения? Разбить по точкам — угадал?

Если вы начнете это делать, то довольно быстро столкнетесь с тем, что точка — это не всегда разделитель предложений (“т.к.”, “т.д.”, “т.п.”, “пр.”, “S.T.A.L.K.E.R.”). Причем эти токены не всегда будут исключениями при разбивке текста на предложения. Например, “т.п.” может быть в середине предложения, а может и в конце.

Вопросительный и восклицательный знак тоже не всегда разделяют текст на предложения. Например, “Yachoo!”. Предложения могут разделять и другие знаки, например, двоеточие (когда следует список из отдельных утверждений).

Поэтому я долго не думая поискал готовый инструмент и остановился на [Томита-парсере][1] от Яндекса. О нем и расскажу.
[Читать дальше →][2]

[1]: https://tech.yandex.ru/tomita/
[2]: https://habrahabr.ru/post/317726/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut