Исследования

Тернарные веса в KAN: почему {-1, 0, +1} работает лучше, чем кажется

19.06.2026 · habr.com ↗

В мае 2024 года вышла статья про Kolmogorov-Arnold Networks (KAN), предложившая альтернативу классическим MLP: вместо линейного веса weight × input + bias используется обучаемая функция. За два года появились QuantKAN, KANtize и BiKA — всё для того, чтобы сжать KAN до работы не только на GPU. Психологический рубеж — 3 бита: ниже у всех падает точность.

Автор решил пойти дальше и попробовал тернарные веса {−1, 0, +1}, что формально 1.58 бита. Вопреки ожиданиям, дискретизация не привела к катастрофическому падению точности — на некоторых задачах тернарный KAN показал результаты, сопоставимые или лучшие, чем полносвязные аналоги с плавающей точкой. Подробности эксперимента и объяснение феномена — в посте.

Это продолжение заметки «Две нейросети по 15 КБ»: акцент на личном опыте и неочевидных выводах, которые могут перевернуть подход к квантованию нейросетей.

Источник: habr.com

Темы: Исследования