Эксперимент: алгоритм из маленькой модели можно вставить в LLM, но есть подвох
Главная боль при работе с LLM — чтобы научить их решать арифметику или логические задачи, приходится либо писать длинные промпты с примерами (CoT), либо дообучать модель. Это дорого, долго и непредсказуемо. Авторы эксперимента пошли другим путём: взяли маленькую модель, обученную до состояния «идеального калькулятора» (модульная арифметика на 100%), и попытались извлечь её внутреннее состояние (residual stream) и инжектировать его в большую LLM прямо во время генерации — без градиентов, новых данных и fine-tuning.
Метод — линейная проекция между пространствами активаций двух моделей. Провели серию из 6 экспериментов: от случайной проекции до обучения линейного оператора W, от замены эмбеддингов до патча residual stream с сохранением контекста. Результат: алгоритм удалось передать с точностью 99,9%, но только при условии, что штатный LM head большой модели заменили на маленький адаптер.
Без адаптера — даже имея идеальный сигнал внутри residual stream, модель не могла его прочитать. Авторы сравнивают это с тем, как дать человеку правильный ответ, но записанный шрифтом Брайля, который он не знает. Открытие указывает на фундаментальное различие между тем, как маленькая модель «компилирует» алгоритм, а большая — «симулирует» его через текст.