"Записки научных семинаров ПОМИ"
Том 529, стр. 176-196
Объединение предсказаний улучшает понимание мультимодального \break рекламного контента
А. Алексеев, А. Савченко, Е. Тутубалина, Е. Мясников, С. Николенко
Steklov Institute of Mathematics, St. Petersburg, Russia
anton.m.alexeyev@gmail.com
Sber AI Lab, Russia
andrey.v.savchenko@gmail.com
Sber AI, Russia; Kazan Federal University, Russia
tutubalinaev@gmail.com
Samara National Research University, Russia
mevg@geosamara.ru
Steklov Institute of Mathematics, St. Petersburg, Russia
snikolenko@gmail.com
- Аннотация:
Рекламная индустрия использует несколько модальностей контента для доставки подразумеваемых
сообщений: изображения, видео, текст, музыка, и все это вместе взятое.
``Декодирование'' сообщения, подразумеваемого в мультимодальном контенте, часто требует
анализа как текстовых, так и визуальных его компонентов. Мы изучаем задачи распознавания
мультимодального символизма, обнаружения тем и классификации тональности. Руководствуясь
разницей в частях сообщения, передаваемых разными модальностями в рекламных объявлениях,
мы обучаем отдельные модели для изображений и текстов и значительно улучшаем результаты,
смешивая прогнозы на основе изображений и текста (с автоматически распознанным текстом),
что дает экспериментальное подтверждение нашего подхода.
Библ. -- 69 назв.
- Ключевые слова: мультимодальное машинное обучение, понимание рекламного контента,
распознавание тематики, тональность текста, классификация тональности
[multimodal, ads understanding, topic detection, sentiment, sentiment classification]
Полный текст(.pdf)