"Записки научных семинаров ПОМИ"
Том 499, стр. 248-266
Робастные векторы слов: распределённые представления для зашумленных текстов с учётом контекста
Т. Хахулин, В. Логачева, В. Малых
Skolkovo Institute of Science and Technology,
Nobelya Ulitsa, 3, 121205,
Moscow, Russia
taras.khakhulin@phystech.edu
Moscow Institute of Physics and Technology,
9 Institutskiy per., Dolgoprudny,
Moscow Region, 141701, Russian Federation
varvara.logacheva@gmail.com
St. Petersburg Department of
Steklov Institute of Mathematics,
nab. r. Fontanki, 27, 191023, St. Petersburg, Russia;
Moscow Institute of Physics and Technology,
9 Institutskiy per., 141701, Dolgoprudny, Russia;
Institute for Systems Analysis,
pr. 60-letiya Oktyabrya, 9, 117312, Moscow, Russia
valentin.malykh@phystech.edu
- Аннотация:
Мы представляем новую языконезависимую архитектуру робастных векторов
слов (robust word vectors, RoVe). Её задача -- решить проблему опечаток
и орфографических ошибок, которыми изобилует практически любой порождённый
пользователями контент и которые при этом осложняют автоматическую обработку текстов.
Наша модель мотивирована морфологически, что позволяет ей обрабатывать
ранее не виденные формы слов в морфологически богатых языках.
Мы представляем результаты для нескольких задач обработки естественных языков
на нескольких языках для нескольких родственных нейросетевых архитектур,
показывая, что предлагаемая архитектура устойчива к опечаткам.
Библ. -- 38 назв.
- Ключевые слова: векторы слов, распределённые представления,
обработка естественных языков
[word vectors, distributed representations, natural language processing]
Полный текст(.pdf)