Инструменты
Туториал по Activation Steering: как управлять поведением LLM через PyTorch и nnsight
Автор туториала показывает, как с помощью activation steering — техники вмешательства в скрытые состояния LLM — можно целенаправленно менять выдачу модели. Рассматриваются три подхода: использование pytorch-hooks для прямых манипуляций с активациями, а также библиотеки nnsight и pyvene, которые упрощают работу с интервенциями.
В материале всё построено на практических примерах — от простого сдвига до тонкой настройки поведения. Автор обещает, что даже незнакомые термины станут понятны по ходу чтения. Туториал будет полезен разработчикам, которые хотят глубже понять механизмы управления генерацией LLM.
Источник: habr.com