"Записки научных семинаров ПОМИ"
Том 529, стр. 54-71
Моноязыковой и межязыковой перенос знаний для задачи тематической классификации
Д. Карпов, М. Бурцев
Moscow Institute of Physics and Technology, Dolgoprudny, Russia
dmitrii.a.karpov@phystech.edu
London Institute for Mathematical Sciences, London, United Kingdom
mbur@lims.ac.uk
- Аннотация:
В этой работе мы исследуем перенос знаний из набора данных \texttt{RuQTopics}.
Этот русскоязычный тематический набор данных сочетает в себе большое количество точек данных
(361560 текстов с одной меткой, 170930 -- с несколькими метками) с обширным охватом классов (76 классов).
Мы подготовили этот набор данных на основе необработанных данных {Yandex Que}.
Оценивая модели, обученные на \texttt{RuQTopics}, на шести соответствующих классах из русскоязычного
подмножества набора данных \texttt{MASSIVE}, мы показываем, что набор данных \texttt{RuQTopics}
подходит для реальных диалоговых задач, поскольку модели, предназначенные только для русского языка,
после обучения на этом наборе данных показывают точность около 85\% на этом подмножестве.
Мы также обнаружили, что для многоязычного BERT, обученного на \texttt{RuQTopics} и оцененного
на тех же шести классах \texttt{MASSIVE} (для всех языков датасета \texttt{MASSIVE}),
языковая точность тесно коррелирует (корреляция Спирмена 0.773 с p-значением 2.997e-11) с
приблизительным размером данных для предобучения BERT на соответствующем языке.
В то же время корреляция точности с языковой дистанцией от русского языка не является статистически значимой.
Библ. -- 33 назв.
- Ключевые слова: датасет, тематическая классификация, перенос знаний, межязыковой перенос знаний
[dataset, topic classification, knowledge transfer, cross-lingual knowledge transfer]
Полный текст(.pdf)