"Записки научных семинаров ПОМИ"
Том 499, стр. 222-235
Распознавание именованных сущностей для русского языка
при помощи мультизадачной модели LSTM-CRF
В. Мазитов, И. Алимова, Е. Тутубалина
Kazan Federal University,
Kazan, Russia, 420008
daniyarttt@gmail.com
alimovailseyar@gmail.com
Lomonosov Moscow State University,
Kolmogorova str., 1, Moscow 119991, Russia; Kazan Federal University,
420008 Kazan, Russia
tutubalinaev@gmail.com
- Аннотация:
Цель распознавания именованных сущностей (named entity recognition, NER) --
получить важную информацию из неструктурированных данных, представленных
в виде текста на естественном языке. В настоящей работе мы исследуем
эффективность современного мультизадачного подхода к NER на русскоязычных
корпусах с использованием нескольких различных наборов данных для NER
и набора данных частеречной разметки (part-of-speech tagging, POS).
Мы применяем современную нейросетевую архитектуру, основанную на
двунаправленных LSTM и условных случайных полях (CRF). Свёрточные нейронные
сети использовались для обучения признаков на уровне отдельных букв.
Мы представляем обширное экспериментальное исследование на трёх стандартных
русскоязычных новостных наборах данных. Предлагаемая мультизадачная модель
улучшает известные ранее результаты, достигая F1-меры 88.04\% на датасете Гареева
и F1-меры 99.49\% на датасете Person-1000.
Библ. -- 37 назв.
- Ключевые слова: распознавание именованных сущностей, обработка естественных языков,
рекуррентные нейронные сети
[named entity recognition, NER \and LSTM \and CRF \and multi-task learning]
Полный текст(.pdf)