"Записки научных семинаров ПОМИ"
Том 499, стр. 206-221
Пословная аугментация для обучения посимвольных моделей на русскоязычных текстах
Р. Б. Галинский, А. М. Алексеев, С. И. Николенко
galinskyifmo@gmail.com
С.-Петербургское отделение Математического института
им. В. А. Стеклова РАН,
наб. р. Фонтанки 27,
191023, Санкт-Петербург, Россия
anton.m.alexeyev@gmail.com
С.-Петербургский государственный университет,
Университетская наб. 7/9,
199304 С.-Петербург;
С.-Петербургское отделение Математического института
им. В. А. Стеклова РАН,
наб. р. Фонтанки 27,
191023, Санкт-Петербург, Россия
s.nikolenko@spbu.ru, sergey@logic.pdmi.ras.ru
- Аннотация:
Большие модели глубокого обучения, в том числе модели для обработки
естественных языков, требуют больших наборов данных для обучения.
Такие наборы могут оказаться недоступны для относительно редких языков
или для отдельных предметных областей. Мы рассматриваем подход к решению
проблемы низкой вариативности и малого размера доступных для обучения
NLP моделей наборов данных на основе аугментации данных при помощи синонимов.
Мы представляем новую схему аугментации, которая включает замену слов
на синонимы и изменение порядка слов, применяем её к русскому языку и получаем
улучшенные результаты для задачи анализа тональности.
Библ. -- 46 назв.
- Ключевые слова: глубокое обучение, обработка естественных языков,
аугментация данных, анализ тональности
[Deep learning, natural language processing, data augmentation, sentiment analysis]
Полный текст(.pdf)