Исследования

Туториал по Activation Steering: как дёргать за рычаги нейронки через PyTorch и nnsight

15.06.2026 · habr.com ↗

Если вы когда-нибудь гуглили «как сделать модель добрее» и получали в ответ «рулевое управление» — вы наткнулись на Steering. Это техника, которая позволяет целенаправленно изменять выход модели, вмешиваясь в её внутренние активации, а не дообучать её заново.

В туториале автор на конкретном примере показывает, как сдвинуть LLM в сторону hate-speech: сначала объясняет теорию, затем реализует steering через PyTorch hooks, а после знакомит с библиотеками nnsight и pyvene для более удобных interventions. К концу вы должны разобраться во всех ключевых понятиях.

Материал рассчитан на тех, кто уже работает с LLM и хочет понять, как они устроены изнутри, — без лишней воды, с кодом и примерами.

Источник: habr.com

Темы: Исследования