Система искусственного интеллекта для классификации документов сложной структуры
Основное содержимое статьи
Аннотация
В работе представлен метод восстановления логической связности текстов, полученных в после применения методов оптического распознавания текстов (OCR) для классификации отсканированных копий деловой документации. Метод включает два этапа. Вначале проводят предварительную сегментацию интересующих областей средствами сверточной нейронной сети (CNN) глубокого обучения с архитектурой yolo. Полученная в результате информация позволяет восстановить логическую связность текста документа. Затем тот же подход применяется для сопоставления названия атрибута и его значения для одного из распространенных видов их представления в виде 2-х колонок: колонки имен и колонки значений. Метод успешно решает задачи классификации документов и извлечения ключевых атрибутов в контексте системы электронного документооборота.
Скачивания
Информация о статье
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Библиографические ссылки
Visual document understanding // John Snow Labs | NLP & AI in Heathcare / John Snow Labs Inc. - [Lewes], 2023. – URL: https://nlp.johnsnowlabs.com/docs/en/ocr_visual_document_understanding (дата обращения 02.02.2023).
Yu M. YOLOv4 transfer learning for scanned document structure recognition// Medium : [сайт ]. - Дата публикации: 27.07.2020. – URL: https://mingzhi2.medium.com/yolov4-transfer-learning-for-scanned-document-structure-recognition-dc3fc8bfe426/.
Segmentation of Scanned Documents Using Deep-Learning Approach / P. Forczmański , A. Smoliński, A. Nowosielski, K. Małecki // Advances in Intelligent Systems and Computing. – 2020. – Vol. 977. – Pp. 141-152. – DOI: https://doi.org/10.1007/978-3-030-19738-4_15
Deep learning for table detection and structure recognition: A survey / M. Kasem, A. Abdallah, A. Berendeyev, E. Elkady, [et al.]. // arXiv.org : [open archive]. – 2022. – arXiv:2211.08469 [cs.CV]. – URL: https://arxiv.org/abs/2211.08469. – Submitted on 15 Nov 2022.
Automated hierarchical classification of scanned documents using convolutional neural network and regular expression / R. Arief, A. B. Mutiara, T. M. Kusuma, H. Hustinawati // International Journal of Electrical and Computer Engineering. – 2022. – Vol. 12(1). – Pp. 1018-1029. – DOI:10.11591/ijece.v12i1.pp1018-1029.
yolov5 : [project] / Ultralytics // GitHub : [web platform]. – GitHub, Inc., 2023. – URL: https://github.com/ultralytics/yolov5?ysclid=lg9f94vy90429921472 (дата обращения: 27.02.2022).