"Записки научных семинаров ПОМИ"
Том 499, стр. 129-136
Восстановление словоформ по контексту для морфологически богатых языков
А. М. Алексеев, С. И. Николенко
С.-Петербургское отделение Математического института
им. В. А. Стеклова РАН,
наб. р. Фонтанки 27,
191023, Санкт-Петербург, Россия
anton.m.alexeyev@gmail.com
С.-Петербургский государственный университет,
Университетская наб. 7/9,
199304 С.-Петербург;
С.-Петербургское отделение Математического института
им. В. А. Стеклова РАН,
наб. р. Фонтанки 27,
191023, Санкт-Петербург, Россия
s.nikolenko@spbu.ru, sergey@logic.pdmi.ras.ru
- Аннотация:
В этой работе мы рассматриваем задачу ``делемматизации на уровне предложений'',
задачу порождения грамматически корректных предложений
по лемматизированным предложениям. Эта задача обычно легко решается людьми.
Мы рассматриваем эту постановку как задачу машинного перевода и в первую
очередь применяем для решения этой задачи sequence-to-sequence модели
на текстах русскоязычной Wikipedia, количественно оцениваем эффект различных
тренировочных наборов данных и достигаем уровня метрики BLEU в $67,3$
при использовании самого большого из доступных тренировочных наборов.
Мы обсуждаем предварительные результаты и недостатки традиционных методов
оценки моделей машинного перевода для этой задачи и предлагаем
направления для дальнейших исследований.
Библ. -- 15 назв.
- Ключевые слова: глубокое обучение, обработка естественных языков,
морфологическое согласование, машинный перевод
[deep learning, natural language processing, morphological agreement, machine translation]
Полный текст(.pdf)