Некоторое время назад (о, боже, уже год прошёл!) на вопрос, будет ли кому-то интересен обзор по современным методам сегментации изображения страницы документа, я получил положительный ответ (от [massimus][1]). И сегодня наконец-то решил этот обзор сделать.
![Вот как-то так страницу сегментируем][2]Но для начала – маленькое отступление. Систему распознавания текста в наших продуктах можно описать очень просто. У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы. Задача сегментации ставится примерно так: есть страница, надо её декомпозировать на текстовые и нетекстовые элементы.
Дальше задачу можно уточнять и уточнять ([здесь][3] я уже вам поднадоел с разъяснениями, что правильная формулировка задачи — уже полшага к её решению; можете не сомневаться, коллег и начальство я достал этим ещё сильнее). Научные работники из разных стран, авторы приводимых методов, хотят заниматься наукой, а не казуистикой, поэтому формулируют свою задачу попроще:
На странице есть текст и картинки. Требуется разбить на блоки текст и выделить картинки. [Читать дальше →][4]
[1]:
https://habrahabr.ru/users/massimus/
[2]:
https://habrastorage.org/files/9e3/77d/7cf/9e377d7cf4bb4cd2a6eb14d4c8253e33.jpg
[3]:
https://habrahabr.ru/company/abbyy/blog/266551/
[4]:
https://habrahabr.ru/post/306510/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut