"Записки научных семинаров ПОМИ"
Том 529, стр. 123-139
Предобучение модели LongT5 для многодокументного реферирования масс-медиа документов на вьетнамском языке
Н. Русначенко, Ле Тхе Ань, Нгуен Нгок Дьеп
Bauman Moscow State Technical University
rusnicolay@gmail.com
FPT University, Can Tho, Viet Nam;
CyberIntellect, Moscow, Russia
anhlt161@fe.edu.vn
CyberIntellect, Moscow, Russia
diepnn83@gmail.com
- Аннотация:
Реферирование (summarization) нескольких документов -- это задача, направленная на извлечение
наиболее важной информации из набора входных документов. Одной из основных проблем в этой
задаче является проблема долгосрочных зависимостей. Когда мы имеем дело с текстами,
написанными на вьетнамском языке, это также сопровождается специфическим слоговым представлением
текста и отсутствием размеченных наборов данных. Недавние достижения в области машинного
перевода привели к значительному росту использования архитектуры, известной как \textit{Transformer}.
После предварительного обучения на больших объемах необработанных текстов трансформеры позволяют
получить глубокие знания о текстах на естественном языке. В настоящей работе мы рассматриваем
результаты применения языковых моделей для решения задач реферирования текста, включая важные
модели реферирования текстов на вьетнамском языке. Мы используем модель LongT5 для
предварительного обучения, а затем дообучаем её для задачи реферирования текста из нескольких
документов на вьетнамском языке. Мы анализируем полученную модель и экспериментируем с
многодокументными наборами данных на вьетнамском языке, включая ViMs, VMDS и VLSP2022.
В результате мы приходим к выводу о том, что использование модели на основе Transformer,
предварительно обученной на большом количестве неразмеченных вьетнамских текстов,
позволяет нам достичь многообещающих результатов с дальнейшим улучшением за счет дообучения
в пределах небольшого количества реферированных вручную текстов. Предварительно обученная модель,
используемая в разделе экспериментов, доступна онлайн по адресу
https://github.com/nicolay-r/ViLongT5.
Библ. -- 33 назв.
- Ключевые слова: многодокументное реферирование на вьетнамском языке,
реферирование текстов, трансформеры, языковые модели
[vietnamese multi-document summarization, text summarization, Transformers, language models]
Полный текст(.pdf)