Модели и агенты
Четыре типичные ошибки при обучении M0+ на CIFAR-10 — и как выйти на 60% точности
Продолжение цикла об архитектурах для маленьких моделей. На этот раз — практический разбор четырёх типичных проблем (граблей), которые возникают при обучении M0+ на CIFAR-10: расходимость, переобучение, численная нестабильность и застревание в локальных минимумах.
Для каждой проблемы предложено решение, а «вихрь» — нестандартный приём, который позволил выйти на 60% точности. Статья содержит конкретные цифры, графики и код. Полезна всем, кто экспериментирует с компактными нейросетями.
Источник: habr.com