"Записки научных семинаров ПОМИ"
Том 499, стр. 236-247
Улучшение устойчивости классификации зашумленных текстов при помощи робастных векторов слов
В. Малых, В. Лялин
St. Petersburg Department of
Steklov Institute of Mathematics,
nab. r. Fontanki, 27, 191023, St. Petersburg, Russia;
Moscow Institute of Physics and Technology,
9 Institutskiy per., 141701, Dolgoprudny, Russia;
Institute for Systems Analysis,
pr. 60-letiya Oktyabrya, 9, 117312, Moscow, Russia
valentin.malykh@phystech.edu
Moscow Institute of Physics and Technology,
9 Institutskiy per., Dolgoprudny, 141701, Russia
lyalin@phystech.edu
- Аннотация:
Классификация текстов -- одна из фундаментальных задач в обработке
естественных языков, и ей посвящён огромный объём работ.
Однако до настоящего времени было сравнительно мало исследований
устойчивости разрабатываемых подходов к шуму в текстах.
В этой работе мы заполняем этот пробел и представляем результаты
тестирования устойчивости к шуму современных архитектур классификации
текстов для английского и русского языков. Мы проводим эксперименты для
моделей CharCNN и SentenceCNN, а также вводим новую модель RoVe,
которая в наших экспериментах оказывается наиболее устойчива к шуму.
Библ. -- 18 назв.
- Ключевые слова: векторы слов, распределённые представления,
обработка естественных языков
[word vectors, distributed representations, d natural language processing]
Полный текст(.pdf)