4.6-битное квантование: практический опыт эксплуатации на мобильных процессорах
Два года назад была предложена схема 4.6-битного квантования: веса и входы слоя принимают такие целые значения, что их попарные произведения помещаются в знаковый 8-битный тип. Теоретически это позволяло вычислять нейронные сети на мобильных процессорах быстрее 8-битного формата и точнее 4-битного из-за большего числа уровней квантования.
За прошедшее время авторы накопили практический опыт применения таких сетей. Оказалось, что для реального использования критичны не только схема квантования и алгоритм умножения. Ключевые вопросы возникали по поводу устройства активаций, хранения карт признаков между слоями, обработки ветвлений и самого обучения квантованной сети.
В статье подробно разбираются эти аспекты — от выбора функции активации (HardTanh) до инфраструктурных решений, позволяющих добиться стабильной работы на мобильных устройствах. Материал будет полезен инженерам, занимающимся квантизацией и развертыванием моделей на edge-устройствах.