"Записки научных семинаров ПОМИ"
Том 529, стр. 157-175
Что модели для порождения изображений знают о языках мира?
В. Фирсанова
St. Petersburg State University, St. Petersburg, Russia
st085687@student.spbu.ru
- Аннотация:
Модели, порождающие изображения по тексту (text-to-image), используют заданные пользователем
запросы для создания изображений. Такие text-to-image модели, как DALL-E 2, Imagen,
Stable Diffusion и Midjourney, могут генерировать фотореалистичные или похожие
на нарисованные человеком изображения. Помимо имитации человеческого искусства,
большие text-to-image модели научились создавать комбинации пикселей, напоминающие подписи
на естественных языках. Например, сгенерированное изображение может содержать фигуру
животного и комбинацию символов, напоминающую нам слова на естественном языке, описывающие
биологическое название этого вида. Хотя слова, иногда появляющиеся на сгенерированных изображениях,
могут быть читабельными для человека, они не укоренены в словарях естественного языка и не
имеют смысла для нелингвистов. В то же время мы обнаруживаем, что семиотический и лингвистический
анализ так называемого скрытого словаря моделей преобразования текста в изображение внесет
вклад в области объяснимого искусственного интеллекта и инженерии запросов. Результаты этого
анализа можно использовать для снижения рисков применения таких моделей при решении реальных
задач и для обнаружения дипфейков. Предлагаемое исследование является одной из первых попыток
анализа text-to-image моделей с точки зрения семиотики и лингвистики. Наш подход предполагает
инженерию запросов, создание изображений и сравнительный анализ. Исходный код, сгенерированные
изображения и запросы доступны по адресу
https://github.com/vifirsanova/text-to-image-explainable
Библ. -- 34 назв.
- Ключевые слова: объяснимый искусственный интеллект, text-to-image модели, диффузионные модели
[explainable artificial intelligence, text-to-image synthesis, diffusion models]
Полный текст(.pdf)