Исследования

Язык мыслей LLM: как учёный нашёл и «покрутил» концепт «проверь» внутри нейросети

23.06.2026 · habr.com ↗

Большая языковая модель выдаёт токены слева направо, но до их рождения внутри сети пробегает волна чисел — скрытые состояния, по 3584 чисел на каждом из 28 слоёв. Автор задался вопросом: есть ли у этих чисел свой язык, не английский и не код, а язык мыслей? Интуиция подсказывала «да», но требовалось строгое доказательство.

Метод — activation steering. Берутся два набора задач: «проверочные» (сначала протестировать, потом действовать) и «прямые» (сразу выполнять). По разнице скрытых состояний строится вектор-направление, соответствующее концепту «verify». Затем этот вектор вживляется обратно в модель во время генерации — и если поведение меняется сильнее, чем от случайного вектора, значит, найдена настоящая «ручка громкости» мысли.

Эксперимент удался: вектор действительно управлял поведением. Это не про «сознание ИИ», а про то, что внутри LLM есть слой, где мысль существует как концепт, а не как слово. Такой подход открывает путь к интерпретируемости: можно не только читать «язык мыслей», но и осознанно влиять на ход рассуждений модели.

Источник: habr.com

Темы: Исследования