Применение методов глубокого обучения в задачах сегментации текстовых изображений

Основное содержимое статьи

А. Г. Бурикова
Н. М. Ершов

Аннотация

Работа посвящена решению задачи сегментации текстовых изображений, целью которой является выделение на изображении документа текстовых блоков, соответствующих колонкам, заголовкам, колонтитулам и т.д. Проводится обзор существующих методов сегментации изображений, в том числе предназначенных и для поиска и выделения на изображениях текстовых блоков. Анализируются как классические методы, так и методы, основанные на использовании искусственных нейронных сетей. Для решения поставленной задачи предлагается подход на основе свёрточных нейронных сетей и модели U-Net. Описывается метод автоматической генерации обучающих примеров для обучения нейронной сети. Рассматривается процессы настройки модели, её обучения и тестирования. Приводятся результаты численного исследования обученных моделей на реальных данных.

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
[1]
Бурикова, А.Г. и Ершов, Н.М. 2024. Применение методов глубокого обучения в задачах сегментации текстовых изображений. Системный анализ в науке и образовании. 2 (июн. 2024), 39–46.
Выпуск
Раздел
Моделирование и анализ данных

Библиографические ссылки

Shapiro L. G. Computer Vision / L. G. Shapiro, G. C. Stockman. Prentice Hall, 2001.

Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // Medical Image Computing and Computer-Assisted Intervention, MICCAI 2015. Vol. 935. P. 234–241. DOI: 10.1007/978-3-319-24574-4_28.

Sezgin M., Sankur B. Survey over image thresholding techniques and quantitative performance evaluation // Journal of Electronic Imaging. 2004. Vol. 13 (1). P. 146-168. DOI: 10.1117/1.1631315.

Comaniciu D., Meer P. Mean Shift: A Robust Approach Toward Feature Space Analysis // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No. 5. P. 603–619. DOI: 10.1109/34.1000236.

Shi Jianbo, Malik J. Normalized Cuts and Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. Vol. 22, No. 8. P. 888–905. DOI: 10.1109/34.868688

Barghout L. Visual Taxometric approach Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions // Communications in Computer and Information Science (CCIS). Springer-Verlag. 2014.

Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelli-gence. 2017. Vol. 39, No. 12. P. 2481-2495. DOI: 10.1109/TPAMI.2016.2644615.

Vision AI: Image & Visual AI Tools | Google Cloud. URL: https://cloud.google.com/vision (дата обращения: 10.06.2024).

docWizz | CCS. CCS Content Conversion Specialists Gmb, [2024]. URL: https://content-conversion.com/software/docwizz/ (дата обращения: 10.06.2024).

Book Scan Processing Print Press Edition | АЛАНИС Софтвер. URL: https://alanissoftware.wordpress.com/bsp-ppe-book-scan-processing-print-press-edition/ (дата об-ращения: 10.06.2024).

The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content from 16 Million Historic Newspaper Pages in Chronicling America / B. Lee, J. Mears, E. Jakeway [et al.] // arXive.org e-Print archive. DOI: 10.48550/arXiv.2005.01583.

U-NET for brain MRI | PyTorch. The Linux Foundation, [2024]. URL: https://pytorch.org/hub/mateuszbuda_brain-segmentation-pytorch_unet/ (дата обращения: 10.06.2024).

GitHub - AnnaBurikova / TextBlocksDetection. GitHub, Inc., 2024. URL: https://github.com/AnnaBurikova/TextBlocksDetection (дата обращения: 10.06.2024).