Исследования
Туториал по Activation Steering: как дёргать за рычаги нейронки через PyTorch и nnsight
Если вы когда-нибудь гуглили «как сделать модель добрее» и получали в ответ «рулевое управление» — вы наткнулись на Steering. Это техника, которая позволяет целенаправленно изменять выход модели, вмешиваясь в её внутренние активации, а не дообучать её заново.
В туториале автор на конкретном примере показывает, как сдвинуть LLM в сторону hate-speech: сначала объясняет теорию, затем реализует steering через PyTorch hooks, а после знакомит с библиотеками nnsight и pyvene для более удобных interventions. К концу вы должны разобраться во всех ключевых понятиях.
Материал рассчитан на тех, кто уже работает с LLM и хочет понять, как они устроены изнутри, — без лишней воды, с кодом и примерами.
Источник: habr.com