"Записки научных семинаров ПОМИ"

Том 530, стр. 80-95

Состязательные атаки на языковые модели: фильтрация WordPiece и синонимы ChatGPT

Т. Тер-Ованесян, Х. Алексанян, К. Аветисян

Russian-Armenian University, ISP RAS, Yerevan, Armenia

tterhovhannisyan@ispras.ru

a.aleksanyan@ispras.ru

karavet@ispras.ru

Аннотация: В последние годы состязательные атаки на текст привлекли значительное внимание из-за их потенциальной возможности подорвать надежность моделей обработки естественного языка. Мы представляем новые подходы к созданию состязательных примеров на уровне символов и слов в виде черного ящика, применимые к моделям на основе BERT. Подход на уровне символов основан на идее добавления естественных опечаток в слово в соответствии с его токенизацией WordPiece. В рамках подходов на уровне слов мы представляем три метода, которые используют синонимичные слова-заменители, созданные ChatGPT и затем скорректированные для приведения их в соответствующую грамматическую форму для данного контекста. Кроме того, мы пытаемся минимизировать частоту возмущений, принимая во внимание ущерб, который каждое возмущение наносит модели. Комбинируя подходы на уровне символов, подходы на уровне слов и технику минимизации частоты возмущений, мы достигаем наилучшей производительности атаки. Наш лучший подход работает на 30-65% быстрее, чем лучший ранее метод Tampers, и имеет сопоставимую частоту возмущений. В то же время предлагаемые возмущения сохраняют семантическое сходство исходного и состязательного примеров и достигают относительно низкого значения расстояния Левенштейна. Библ. -- 22 назв.
Ключевые слова: состязательные атаки, атаки на уровне символов, атаки на уровне слов, синонимы ChatGPT, WordPiece [adversarial attacks, character-level attacks, word-level attacks, ChatGPT synonyms, WordPiece]

Полный текст(.pdf)