Инструменты

LLM-бот в проде: почему не надо слать каждый вопрос в нейросеть напрямую — гибридный конвейер вместо чистого RAG

29.06.2026 · habr.com ↗

Типичный подход к боту поддержки на LLM — отправить каждый вопрос пользователя в модель вместе с куском базы знаний. На демонстрации это работает, но в продакшене начинаются проблемы: галлюцинации, путаница в похожих сценариях и рост счёта за токены с каждым «здравствуйте». Автор решил перевернуть схему: вопрос доходит до нейросети только после обработки через детерминированные слои.

Вместо «чистого» RAG строится гибридный конвейер: сначала вопрос анализируется, нормализуется, проверяется на соответствие правилам, затем выбирается подходящий сценарий. LLM подключается в самом конце — для генерации ответа только на основе уже проверенных фактов. За счёт этого удаётся снизить количество галлюцинаций, стабилизировать поведение бота и сократить расходы на токены.

Кейс интересен не только для поддержки, но и для любых систем, где LLM используется в проде: автор показывает, что детерминированные пре-обработки — не враг, а друг нейросети. Полный разбор архитектуры и конкретные примеры — в оригинальной статье (ссылка ведёт на Habr).

Источник: habr.com

Темы: Инструменты