Исследования
Прирост ROC-AUC на 0,003 — шум или победа? Разбор методологии сравнения моделей
Когда ROC-AUC вырастает с 0,871 до 0,874, возникает соблазн объявить модель лучше. Однако такой прирост на третьем знаке может быть артефактом конкретного разбиения данных — и на свежей выборке «улучшение» исчезнет. Без оценки статистической значимости метрика превращается в лотерею.
Стандартный способ проверить — построить доверительные интервалы через бутстрап или скользящее окно. Если интервалы перекрываются, разница незначима. Ещё полезно посчитать p-value при сравнении двух моделей на одних и тех же данных.
Главный совет: не доверяйте микро-приростам, если они не подкреплены контролируемым экспериментом и воспроизводимостью. Иногда +0,3% — это просто шум, а иногда — реальный сдвиг; но проверить это можно только корректной статистикой.
Источник: habr.com