Меньше 100 тыс. параметров — и победа над SOTA: новая парадигма компьютерного зрения
На Хабре опубликован манифест-тизер от команды, разработавшей собственную универсальную модель компьютерного зрения. Авторы утверждают, что их архитектура и «математика» позволяют решать задачи детекции, классификации и сегментации с точностью, в худшем случае сопоставимой с современным SOTA, а в обычном — превосходящей его.
Главное отличие — радикальная эффективность: вместо сотен миллионов и миллиардов параметров, характерных для таких моделей, как YOLO и семейство DINO, новая модель использует менее 100 тыс. параметров. Это на порядки меньше, что открывает возможности для работы на граничных устройствах и в сценариях с жёсткими ограничениями по ресурсам.
Пока это лишь заявка: нет названия, демонстрации, кода и публикации. Однако если заявление подтвердится, это может означать сдвиг парадигмы в компьютерном зрении — от наращивания масштаба к принципиально иной архитектурной эффективности. Команда обещает раскрыть подробности позже.