[#] Использование триграмм для коррекции результатов распознавания
habrabot(difrex,1) — All
2016-08-25 16:30:04



_На рисунке выше изображены 8 возможных триграмм (N-граммы с N=3), приписываемое Вэнь-вану (Квадратно-круговое расположение взято из книги [1]_




Естественные языки могут быть охарактеризованы распределением частот встречаемости своих элементов, таких как слова, отдельные буквы или последовательности букв (_N_-граммы). Формально _N_-граммой называется строка из _N_ символов, принадлежащих некоторому алфавиту, состоящему из конечного числа символов. О теоретических и прикладных вопросах применения аппарата _N_-грамм для автоматической коррекции текста можно прочесть в работе [2].




В данной статье мы будем рассматривать только алфавит, состоящий из букв русского языка, далее мы расскажем о возможностях применения триграмм (последовательностей из трех символов) для постобработки (коррекции с целью уменьшения ошибок) результатов распознавания русскоязычных документов. В качестве механизма распознавания выступали сверточные нейронные сети.


[Читать дальше →][1]

[1]: https://habrahabr.ru/post/308488/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut