Применение методов машинного обучения в задачах распознавания печатных текстов 19 века

Основное содержимое статьи

М. В. Алейников
Н. М. Ершов

Аннотация

Работа посвящена изучению возможностей использования методов машинного обучения в задаче распознавания русских печатных документов 19 века. Приводятся результаты анализа существующих методов и средств для распознавания печатных текстов, в том числе проприетарных, на примере анализа некоторых русских документов 19 века. В работе предлагается подход к распознаванию текстов с использованием программного комплекса Tesseract, на основе которого разработаны две версии программной системы, работающей с оцифрованными изображениями текстовых документов. Приводятся результаты тестирования разработанной программной системы, показывающие перспективность предложенного подхода. Работа выполнена при финансовой поддержке РФФИ (грант № 20-07-01053 А).

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
[1]
Алейников, М.В. и Ершов, Н.М. 2021. Применение методов машинного обучения в задачах распознавания печатных текстов 19 века. Системный анализ в науке и образовании. 1 (сен. 2021), 12–22.
Раздел
Статьи

Библиографические ссылки

Tesseract // GitHub. URL : https://github.com/tesseract-ocr/tesseract.

Tensorflow // GitHub. URL : https://github.com/tensorflow/tensorflow.

Olah C. Understanding LSTM Networks // colah's blog. 2015. URL : http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

Журнал Министерства народного просвещения / Тип. Императорской Академии Наук. СПб.,1834-1917. // Runivers.ru – Россия в подлиннике. URL : https://www.runivers.ru/lib/book7643/.

ABBYY FineReader Online / ABBYY. URL : https://finereaderonline.com/ru-ru/Tasks/Create.

Google Vision API. UR L: https://cloud.google.com/vision/.

Free Online OCR Service. URL : https://www.onlineocr.net/ru/.

OCR.space / a9t9 software GmbH. URL : https://ocr.space/.

Tesseract User Manual. URL : https://tesseract-ocr.github.io/tessdoc/Home.html.

Tesseract.js : Pure Javascript OCR for 100 Languages! URL : https://tesseract.projectnaptha.com.