"Записки научных семинаров ПОМИ"

Том 530, стр. 51-67

Максимизация покрытия нейронов для эффективного построения тестового набора относительно модели

Д. Кущук, М. Рындин

Ivannikov Institute for System Programming of the RAS

dkuschu@ispras.ru

mxrynd@ispras.ru

Аннотация: Реальные данные не являются стационарными, поэтому модели необходимо отслеживать во время использования. Один из способов убедиться в работоспособности модели -- регулярное тестирование. В случае отсутствия размеченных данных можно сформулировать задачу минимизации стоимости разметки. В этой работе мы исследуем и разрабатываем различные способы построения минимального набора тестов для данной обученной модели таким образом, чтобы точность модели, рассчитанной на выбранном подмножестве, была максимально приближена к реальной. Мы фокусируемся на сценарии белого ящика (white box) и предлагаем новый подход, который использует покрытие нейронов в качестве наблюдаемого функционала, который нужно максимизировать для минимизации числа примеров. Мы оцениваем предложенный подход и сравниваем его с байесовскими методами и алгоритмами стратификации, которые являются основными подходами к решению этой задачи в литературе. Разработанный метод показывает примерно такой же уровень производительности, но имеет ряд преимуществ перед конкурентами. Он детерминирован, что исключает разброс результатов. Кроме того, этот метод может дать информацию об оптимальном бюджете. Библ. -- 16 назв.
Ключевые слова: минимальный тестовый датасет, покрытие нейронов, мониторинг моделей машинного обучения [minimum test dataset, neuron coverage, model monitoring]

Полный текст(.pdf)