"Записки научных семинаров ПОМИ"
Том 540, стр. 178-193
Открытая библиотека для мультимодальной кластеризации методами AutoML на Apache Spark
С. Муравьёв, В. Казаковцев, И. Усов, П. Шпинева, О. Муравьёва, А. Шалыто
ITMO University, St. Petersburg, Russia
smuravyov@gmail.com
ivan.usov.2000@mail.ru
polina.shpineva@gmail.com
ilyasovaolya@gmail.com
shalyto@mail.ifmo.ru
Siberian Federal University, Krasnoyarsk, Russia
vokzvokz@gmail.com
- Аннотация:
Мы представляем библиотеку, которая позволяет выбирать и настраивать
алгоритмы кластеризации для мультимодальных данных, то есть данных,
где каждый объект представлен не только вектором, но также текстом
и/или изображением, и каждая модальность значима. Наша библиотека
автоматически находит баланс между исследованием и эксплуатацией
входных данных среди набора реализованных алгоритмов кластеризации в
соответствии с выбранным внутренним индексом валидации кластеризации.
В библиотеке также реализована рекомендательная система для выбора
индекса валидации, которая может предсказать наиболее подходящую меру
для входных данных. Мы использовали Apache Spark для реализации
алгоритмов кластеризации, что позволяет использовать библиотеку на
распределённых вычислительных системах для кластеризации больших
мультимодальных данных.
Библ. -- 12 назв.
- Ключевые слова: автоматическое машинное обучение, мультимодальные модели,
кластеризация, Apache Spark
[automatic machine learning, multimodal models, clustering, Apache Spark]
Полный текст(.pdf)