"Записки научных семинаров ПОМИ"
Том 529, стр. 43-53
Wav2Vec2 без внимания: нужны ли сети Хопфилда для самообучения представлений речи?
Д. Гребенкин, И. Бондаренко
Laboratory of Applied Digital Technologies, Novosibirsk State University
d.grebenkin@g.nsu.ru
i.bondarenko@g.nsu.ru
- Аннотация:
В настоящей работе мы рассматриваем возможность замены многоголового внимания слоями плотной
ассоциативной памяти (dense associative memory, DAM) в алгоритме автоматического
распознавания речи wav2vec2. Мы рассматриваем гипотезу о том, что концепция современных
сетей Хопфилда больше подходит для задачи восстановления недостающих фрагментов звукового
сигнала и задачи преобразования речи в текст, чем многоголового внимание.
Наши эксперименты показывают, что модель с новой архитектурой позволяет улучшить качество
распознавания речи и может использоваться для предварительного обучения моделей
на большом объеме аудиоданных.
Библ. -- 27 назв.
- Ключевые слова: распознавание речи, самовнимание, ассоциативная память
[speech recognition, self-attention, 2 associative memory]
Полный текст(.pdf)