5 проверок для LLM: с чего начать тестирование, если эталона нет
Классическое тестирование с эталонными ответами не работает для LLM: модель может отвечать по-разному на один и тот же запрос, а «зелёный прогон» вчера не гарантирует успеха сегодня. Автор статьи на Habr делится пятью проверками, с которых начинает на новом LLM-проекте — чат-боте, агенте или голосовом ассистенте.
Проверки не требуют кода или фреймворков: только подход. Они помогают быстро выявить типовые проблемы — галлюцинации, нестабильность ответов, игнорирование контекста, потерю логики в диалоге и несоответствие тону. После того как станет ясно, что именно автоматизировать, можно переходить к написанию тестового фреймворка.
Статья ориентирована на практиков, которые только начинают работать с LLM и хотят системно подойти к качеству, не утопая в сложных инструментах.