"Записки научных семинаров ПОМИ"
Том 530, стр. 24-37
Порождение векторной графики большими языковыми моделями: подходы и модели
Б. Тимофеенко, В. Ефимова, А. Фильченков
ITMO University
boriswinner88@gmail.com
vefimova@itmo.ru
GO AI LAB
aaafil@gmail.com
- Аннотация:
Задача создания векторной графики с помощью искусственного интеллекта недостаточно исследована.
В последнее время большие языковые модели (large language models, LLM) успешно
применяются для решения многих задач. Например, современные LLM достигают отличного
качества в задачах порождения кода и открыты для публичного доступа.
В этом исследовании сравниваются подходы к созданию векторной графики с помощью LLM,
а именно ChatGPT (GPT-3.5) и GPT-4. GPT-4 имеет заметные улучшения по сравнению с ChatGPT.
Обе модели легко генерируют геометрические примитивы, но с трудом справляются даже
с простыми объектами. Результаты, полученные с помощью GPT-4, визуально напоминают запросы,
но являются неточными. GPT-4 умеет корректировать вывод по инструкции. Кроме того, обеим моделям
сложно распознать объект по изображению SVG. Обе модели правильно распознают только примитивные объекты.
Библ. -- 20 назв.
- Ключевые слова: большие языковые модели, векторная графика,
порождающие модели, порождение изображений, синтез изображений по
тексту
[large language models, vector graphics, generative AI, image generation, text-to-image synthesis]
Полный текст(.pdf)