"Записки научных семинаров ПОМИ"
Том 540, стр. 252-275
Применение синтаксических парсеров для~турецкого языка в~задаче
разметки кыргызских синтаксических корпусов
А. Алексеев, А. Тиллабаева, Г. Дж. Кабаева, С. И. Николенко
Санкт-Петербургское отделение Математического института им. В. А. Стеклова РАН,
191023, наб.р. Фонтанки, 27, Санкт-Петербург, Россия;
{СПбГУ}, Факультет МКН
199178, 14-ая линия ВО, 29, Санкт-Петербург, Россия;
{КФУ}, Хим. институт им. А.М. Бутлерова
420008, ул. Кремлёвская, 18, Казань, РТ, Россия;
{КГТУ им. И. Раззакова}
720044, пр. Ч. Айтматова, 66, Бишкек, Кыргызстан (Киргизия)
anton.m.alexeyev@gmail.com
Независимая исследовательница,
Бишкек, Кыргызстан (Киргизия)
alinatillabaeva42@gmail.com
КГТУ им. И. Раззакова,
720044, пр. Ч. Айтматова, 66, Бишкек, Кыргызстан (Киргизия)
kabaevagd9@kstu.kg
Университет ИТМО, Санкт-Петербург, Россия;
Санкт-Петербургское отделение Математического института им. В. А. Стеклова РАН,
191023, наб.р. Фонтанки, 27, Санкт-Петербург, Россия
sergey@logic.pdmi.ras.ru
- Аннотация:
Кыргызский (киргизский) язык, как один из малоресурсных, требует
значительных усилий для создания качественных синтаксических корпусов.
В данной работе предложен вариант подхода, упрощающего процесс разработки
синтаксического корпуса для кыргызского языка. В настоящей работе
представлен инструмент для переноса синтаксической разметки с турецкого
языка на кыргызский, основанный на методе машинного перевода трибанков.
Эффективность предложенного инструмента была оценена с использованием
трибанка TueCL. Результаты исследования показывают, что данный подход
обеспечивает более высокую точность синтаксической разметки по сравнению
с моноязычной моделью, обученной на кыргызском трибанке KTMU. Кроме того,
в работе предлагается метод оценки сложности ручного аннотирования
полученных синтаксических деревьев.
Библ. -- 45 назв.
- Ключевые слова: грамматика зависимостей, обработка естественного языка,
языки с малым количеством ресурсов, машинный перевод, обработка кыргызского языка
[dependency grammar, natural language processing,
less-resourced languages, machine translation, Kyrgyz language processing]
Полный текст(.pdf)