"Записки научных семинаров ПОМИ"

Том 540, стр. 27-45

Улучшение совместных вложений текстов и кода для задачи поиска с эффективным по параметрам дообучением

К. Галлямов, Л. Хаертдинова, К. Денисова

Innopolis University, Innopolis, Russia

{k.galliamov,l.khaertdinova,k.denisova}@innopolis.university

Аннотация: Последние достижения в области обработки естественного языка (NLP) демонстрируют значительный прогресс в задаче поиска по исходному коду. По мере увеличения размеров моделей на базе трансформеров, используемых в этой задаче, возрастают вычислительные затраты и время, необходимые для полного их дообучения. Это представляет серьёзную проблему для адаптации и использования этих моделей в условиях ограниченных вычислительных ресурсов. В связи с этими проблемами мы предлагаем метод дообучения, который использует техники эффективного по параметрам дообучения (PEFT). Кроме того, мы применяем контрастивные функции ошибки для улучшения качества бимодальных представлений, обучаемых моделями на основе трансформеров. Для методов PEFT мы предоставляем широкие сравнительные оценки, отсутствие которых было отмечено как важная проблема в литературе. На основе экспериментов с моделью CodeT5+, проведённых на двух наборах данных, мы демонстрируем, что предложенный фреймворк настройки способен улучшить эффективность поиска по коду и тексту, настраивая не более 0.4% параметров. Библ. -- 25 назв.
Ключевые слова: поиск по коду, PEFT, CodeT5+, контрастивное обучение, обработка естественных языков [Code retrieval, PEFT, CodeT5+, contrastive learning, NLP]

Полный текст(.pdf)