Тернарные веса в KAN: почему {-1, 0, +1} работает лучше, чем кажется
В мае 2024 года вышла статья про Kolmogorov-Arnold Networks (KAN), предложившая альтернативу классическим MLP: вместо линейного веса weight × input + bias используется обучаемая функция. За два года появились QuantKAN, KANtize и BiKA — всё для того, чтобы сжать KAN до работы не только на GPU. Психологический рубеж — 3 бита: ниже у всех падает точность.
Автор решил пойти дальше и попробовал тернарные веса {−1, 0, +1}, что формально 1.58 бита. Вопреки ожиданиям, дискретизация не привела к катастрофическому падению точности — на некоторых задачах тернарный KAN показал результаты, сопоставимые или лучшие, чем полносвязные аналоги с плавающей точкой. Подробности эксперимента и объяснение феномена — в посте.
Это продолжение заметки «Две нейросети по 15 КБ»: акцент на личном опыте и неочевидных выводах, которые могут перевернуть подход к квантованию нейросетей.