Как заставить маленькую языковую модель написать конспект лекции на 8 ГБ VRAM: декомпозиция против Lost in the Middle
Автоматическое создание конспектов из аудиозаписей лекций по точным и естественным наукам — нетривиальная задача для локальных малых языковых моделей (SLM). Транскрипт 1,5-часовой лекции занимает 15–20 тыс. токенов, что формально помещается в контекстное окно современных SLM, но при однократной обработке модели систематически теряют фрагменты из середины последовательности, путают структуру и галлюцинируют термины и формулы.
Это проявление эффекта Lost in the Middle: точность извлечения информации описывается U-образной кривой — высока на краях контекста и резко падает в середине. В условиях эксперимента SLM также демонстрируют забывание из начала контекста. При бюджете VRAM в 8 ГБ однократная обработка длинного транскрипта практически невозможна, поэтому декомпозиция становится не оптимизацией, а обязательным условием работоспособности.
Метод LongConspectWriter решает эту проблему, разбивая транскрипт на фрагменты и обрабатывая их последовательно, что позволяет удерживать структуру конспекта и избегать галлюцинаций. Решение ориентировано на потребительские GPU и может быть полезно для студентов и преподавателей, желающих автоматизировать создание конспектов без доступа к облачным API.