Обзор методов автоматической обработки текстов на естественном языке

Основное содержимое статьи

С. Д. Белов
Д. П. Зрелова
П. В. Зрелов
В. В. Кореньков

Аннотация

В работе представлен краткий обзор современных методов и подходов, используемых для автоматической обработки текстовой информации. В англоязычной литературе эта область науки носит название NLP – Natural Language Processing. Само название говорит о том, что предметом анализа (а для многих задач – и синтеза) являются материалы, изложенные на одном из естественных языков (а для ряда задач – на нескольких языках одновременно), т.е. национальных языках общения между людьми. Языки программирования в эту группу не входят. В русскоязычной литературе эта область носит название компьютерной (или математической) лингвистики. Обычно NLP (компьютерная лингвистика) наряду с анализом текста включает также анализ речи, но в данном обзоре последнее не рассматривается.


При составлении обзора использовались материалы оригинальных работ, монографий и ряда статей журнала «Открытые системы.СУБД».

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
[1]
Белов, С.Д., Зрелова, Д.П., Зрелов, П.В. и Кореньков, В.В. 2021. Обзор методов автоматической обработки текстов на естественном языке. Системный анализ в науке и образовании. 3 (сен. 2021), 1–15. DOI:https://doi.org/10.37005/2071-9612-2020-3-8-22.
Раздел
Статьи

Библиографические ссылки

Miller, R. AP’s ‘robot journalists’ are writing their own stories now // The Verge, 29 января 2015 года. – URL : www.theverge.com/2015/1/29/7939067/ap-journalism-automation-robots-financial-reporting (дата обращения: 03.02.2020).

New York Times, 18 октября 2016 года. – URL : www.nytimes.com/2016/11/18/technology/automatedpro-trumpbots-overwhelmed-pro-clinton-messages researchers-say.html и MIT Technology Review, ноябрь 2016 года: www.technologyreview.com/s/602817/how-the-bot-y-politicinfluenced-this-election/ (дата обращения: 21.11.2019).

Тезаурус РуТез. – URL : http://www.labinform.ru/pub/ruthes/ (дата обращения: 21.11.2019).

Word Net: An Electronic Lexical Database / Edit. by Christiane Fellbaum. – Cambridge, MIT Press, 1998 (дата обращения: 5.04.2020).

Национальный Корпус Русского Языка. – URL : http://ruscorpora.ru (дата обращения: 21.11.2019).

ГИКРЯ: генеральный интернет-корпус русского языка. – URL : http://www.webcorpora.ru/ (дата обращения: 5.04.2020).

Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. – М. : Изд-во НИУ ВШЭ, 2017. – 269 с.

Маннинг, К., Рагхаван, П., Шютце, Ч. Введение в информационный поиск. : Пер. с англ. – М. : ООО «И.Д. Вильямс», 2011. – 528 с.

Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ [и др.]. – М. : МИЭМ, 2011. – 272 с.

Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes (англ.) русск.: journal. – 1998. – Vol. 25. – Pp. 259–284. – DOI: 10.1080/01638539809545028.

Mark Needham. scikit-learn: TF/IDF and cosine similarity for computer science papers. – 2017. – URL : https://markhneedham.com/blog/2016/07/27/scitkit-learn tfidf-and-cosine-similarity-for-computer-science-papers/ (дата обращения: 21.11.2019).

Tomas Mikolov et. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. – URL: http://arxiv.org/pdf/1301.3781.pdf (дата обращения: 21.11.2019).

Stefan Jansen. Word and Phrase Translation with word2vec. – arXiv:1705.03127 [cs.CL]. – 2018. – Pp. 2–11 (дата обращения: 21.11.2019).

Селезнев, К. Лингвистика и обработка текстов / К. Селезнев, А. Владимиров // Открытые системы. СУБД. – 2013. – № 4. – С. 46–49.

Велихов, П. Машинное обучение для понимания естественного языка // Открытые Системы.

СУБД. – 2016. – № 1. – С. 18–21. – URL: https://www.osp.ru/os/2016/01/13048649 (дата обращения: 5.04.2020).

Ильвовский, Д. Глубинное обучение для автоматической обработки текстов / Д. Ильвовский, Е. Черняк // Открытые системы. СУБД. – 2017. – № 2. – С. 26–29.

«ПРОМТ» представляет решение для анализа неструктурированных данных // Открытые системы. СУБД. – 2016. – № 2. – С. 3–9.

Гапотченко, Д. ABBYY учит документооборот понимать тексты // Computerworld Россия. – 2015. – № 10.

ИСП РАН анализирует соцсети // Computerworld Россия. – 2017. – № 5.

Хобсон, Л. Обработка естественного языка в действии / Л. Хобсон, Х. Ханнес, Х. Коул. – СПб. : Питер, 2020. – 576 с.

Наиболее читаемые статьи этого автора (авторов)

1 2 3 > >>