LLM-бот в проде: почему не надо слать каждый вопрос в нейросеть напрямую — гибридный конвейер вместо чистого RAG
Типичный подход к боту поддержки на LLM — отправить каждый вопрос пользователя в модель вместе с куском базы знаний. На демонстрации это работает, но в продакшене начинаются проблемы: галлюцинации, путаница в похожих сценариях и рост счёта за токены с каждым «здравствуйте». Автор решил перевернуть схему: вопрос доходит до нейросети только после обработки через детерминированные слои.
Вместо «чистого» RAG строится гибридный конвейер: сначала вопрос анализируется, нормализуется, проверяется на соответствие правилам, затем выбирается подходящий сценарий. LLM подключается в самом конце — для генерации ответа только на основе уже проверенных фактов. За счёт этого удаётся снизить количество галлюцинаций, стабилизировать поведение бота и сократить расходы на токены.
Кейс интересен не только для поддержки, но и для любых систем, где LLM используется в проде: автор показывает, что детерминированные пре-обработки — не враг, а друг нейросети. Полный разбор архитектуры и конкретные примеры — в оригинальной статье (ссылка ведёт на Habr).