Применение методов машинного обучения в задачах распознавания печатных текстов 19 века
Основное содержимое статьи
Аннотация
Работа посвящена изучению возможностей использования методов машинного обучения в задаче распознавания русских печатных документов 19 века. Приводятся результаты анализа существующих методов и средств для распознавания печатных текстов, в том числе проприетарных, на примере анализа некоторых русских документов 19 века. В работе предлагается подход к распознаванию текстов с использованием программного комплекса Tesseract, на основе которого разработаны две версии программной системы, работающей с оцифрованными изображениями текстовых документов. Приводятся результаты тестирования разработанной программной системы, показывающие перспективность предложенного подхода. Работа выполнена при финансовой поддержке РФФИ (грант № 20-07-01053 А).
Скачивания
Информация о статье
Библиографические ссылки
Tesseract // GitHub. URL : https://github.com/tesseract-ocr/tesseract.
Tensorflow // GitHub. URL : https://github.com/tensorflow/tensorflow.
Olah C. Understanding LSTM Networks // colah's blog. 2015. URL : http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
Журнал Министерства народного просвещения / Тип. Императорской Академии Наук. СПб.,1834-1917. // Runivers.ru – Россия в подлиннике. URL : https://www.runivers.ru/lib/book7643/.
ABBYY FineReader Online / ABBYY. URL : https://finereaderonline.com/ru-ru/Tasks/Create.
Google Vision API. UR L: https://cloud.google.com/vision/.
Free Online OCR Service. URL : https://www.onlineocr.net/ru/.
OCR.space / a9t9 software GmbH. URL : https://ocr.space/.
Tesseract User Manual. URL : https://tesseract-ocr.github.io/tessdoc/Home.html.
Tesseract.js : Pure Javascript OCR for 100 Languages! URL : https://tesseract.projectnaptha.com.