"Записки научных семинаров ПОМИ"

Том 529, стр. 176-196

Объединение предсказаний улучшает понимание мультимодального \break рекламного контента

А. Алексеев, А. Савченко, Е. Тутубалина, Е. Мясников, С. Николенко

Steklov Institute of Mathematics, St. Petersburg, Russia

anton.m.alexeyev@gmail.com

Sber AI Lab, Russia

andrey.v.savchenko@gmail.com

Sber AI, Russia; Kazan Federal University, Russia

tutubalinaev@gmail.com

Samara National Research University, Russia

mevg@geosamara.ru

Steklov Institute of Mathematics, St. Petersburg, Russia

snikolenko@gmail.com

Аннотация: Рекламная индустрия использует несколько модальностей контента для доставки подразумеваемых сообщений: изображения, видео, текст, музыка, и все это вместе взятое. ``Декодирование'' сообщения, подразумеваемого в мультимодальном контенте, часто требует анализа как текстовых, так и визуальных его компонентов. Мы изучаем задачи распознавания мультимодального символизма, обнаружения тем и классификации тональности. Руководствуясь разницей в частях сообщения, передаваемых разными модальностями в рекламных объявлениях, мы обучаем отдельные модели для изображений и текстов и значительно улучшаем результаты, смешивая прогнозы на основе изображений и текста (с автоматически распознанным текстом), что дает экспериментальное подтверждение нашего подхода. Библ. -- 69 назв.
Ключевые слова: мультимодальное машинное обучение, понимание рекламного контента, распознавание тематики, тональность текста, классификация тональности [multimodal, ads understanding, topic detection, sentiment, sentiment classification]

Полный текст(.pdf)