F1 в 99% — иллюзия: реальный бенчмарк 14 архитектур для детекции аномалий во временных рядах
Свежие публикации по детекции аномалий во временных рядах регулярно отчитываются о F1 ≈ 99%. Проверка одного из таких методов на датасете SMD показала, что «волшебство» исчезает, если исключить из расчёта протокол Point Adjustment — разрыв между «бумажным» и честным F1 составил 47 процентных пунктов.
Авторы провели собственный масштабный бенчмаркинг: 14 моделей — от LSTM-VAE до графовых сетей и нормализующих потоков — протестировали на 7 датасетах, включая реальную промышленную телеметрию. Добавили стресс-тесты с шумом, дрейфом и выпадением датчиков.
Главный вывод: универсального чемпиона не существует. В условиях производства простые и проверенные архитектуры часто оказываются эффективнее тяжёлых SOTA-решений. Результаты сведены в практическую таблицу выбора модели — в зависимости от типа данных, характера аномалий и ожидаемых искажений сигнала.