Обзор методов автоматической обработки текстов на естественном языке
Основное содержимое статьи
Аннотация
В работе представлен краткий обзор современных методов и подходов, используемых для автоматической обработки текстовой информации. В англоязычной литературе эта область науки носит название NLP – Natural Language Processing. Само название говорит о том, что предметом анализа (а для многих задач – и синтеза) являются материалы, изложенные на одном из естественных языков (а для ряда задач – на нескольких языках одновременно), т.е. национальных языках общения между людьми. Языки программирования в эту группу не входят. В русскоязычной литературе эта область носит название компьютерной (или математической) лингвистики. Обычно NLP (компьютерная лингвистика) наряду с анализом текста включает также анализ речи, но в данном обзоре последнее не рассматривается.
При составлении обзора использовались материалы оригинальных работ, монографий и ряда статей журнала «Открытые системы.СУБД».
Скачивания
Информация о статье
Библиографические ссылки
Miller, R. AP’s ‘robot journalists’ are writing their own stories now // The Verge, 29 января 2015 года. – URL : www.theverge.com/2015/1/29/7939067/ap-journalism-automation-robots-financial-reporting (дата обращения: 03.02.2020).
New York Times, 18 октября 2016 года. – URL : www.nytimes.com/2016/11/18/technology/automatedpro-trumpbots-overwhelmed-pro-clinton-messages researchers-say.html и MIT Technology Review, ноябрь 2016 года: www.technologyreview.com/s/602817/how-the-bot-y-politicinfluenced-this-election/ (дата обращения: 21.11.2019).
Тезаурус РуТез. – URL : http://www.labinform.ru/pub/ruthes/ (дата обращения: 21.11.2019).
Word Net: An Electronic Lexical Database / Edit. by Christiane Fellbaum. – Cambridge, MIT Press, 1998 (дата обращения: 5.04.2020).
Национальный Корпус Русского Языка. – URL : http://ruscorpora.ru (дата обращения: 21.11.2019).
ГИКРЯ: генеральный интернет-корпус русского языка. – URL : http://www.webcorpora.ru/ (дата обращения: 5.04.2020).
Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова [и др.]. – М. : Изд-во НИУ ВШЭ, 2017. – 269 с.
Маннинг, К., Рагхаван, П., Шютце, Ч. Введение в информационный поиск. : Пер. с англ. – М. : ООО «И.Д. Вильямс», 2011. – 528 с.
Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ [и др.]. – М. : МИЭМ, 2011. – 272 с.
Thomas Landauer, Peter W. Foltz, & Darrell Laham. Introduction to Latent Semantic Analysis (англ.) // Discourse Processes (англ.) русск.: journal. – 1998. – Vol. 25. – Pp. 259–284. – DOI: 10.1080/01638539809545028.
Mark Needham. scikit-learn: TF/IDF and cosine similarity for computer science papers. – 2017. – URL : https://markhneedham.com/blog/2016/07/27/scitkit-learn tfidf-and-cosine-similarity-for-computer-science-papers/ (дата обращения: 21.11.2019).
Tomas Mikolov et. al. Efficient Estimation of Word Representations in Vector Space, arxiv.org. – URL: http://arxiv.org/pdf/1301.3781.pdf (дата обращения: 21.11.2019).
Stefan Jansen. Word and Phrase Translation with word2vec. – arXiv:1705.03127 [cs.CL]. – 2018. – Pp. 2–11 (дата обращения: 21.11.2019).
Селезнев, К. Лингвистика и обработка текстов / К. Селезнев, А. Владимиров // Открытые системы. СУБД. – 2013. – № 4. – С. 46–49.
Велихов, П. Машинное обучение для понимания естественного языка // Открытые Системы.
СУБД. – 2016. – № 1. – С. 18–21. – URL: https://www.osp.ru/os/2016/01/13048649 (дата обращения: 5.04.2020).
Ильвовский, Д. Глубинное обучение для автоматической обработки текстов / Д. Ильвовский, Е. Черняк // Открытые системы. СУБД. – 2017. – № 2. – С. 26–29.
«ПРОМТ» представляет решение для анализа неструктурированных данных // Открытые системы. СУБД. – 2016. – № 2. – С. 3–9.
Гапотченко, Д. ABBYY учит документооборот понимать тексты // Computerworld Россия. – 2015. – № 10.
ИСП РАН анализирует соцсети // Computerworld Россия. – 2017. – № 5.
Хобсон, Л. Обработка естественного языка в действии / Л. Хобсон, Х. Ханнес, Х. Коул. – СПб. : Питер, 2020. – 576 с.