Capability-based подход: как тестировать 5 LLM-агентов одним набором тестов
Автор делится опытом перехода от классического QA к capability-based тестированию для LLM-агентов. Проблема в том, что у агентов нет эталонного ответа, и один тест может давать разные результаты при каждом прогоне. Вместо проверки конкретных ответов предлагается оценивать способности агента — навигацию по сайту, работу с API, понимание контекста.
В статье показано, как настроить универсальный набор тестов для пяти разных агентов, используя общие компетенции. Каждый тест проверяет, может ли агент выполнить задачу определённого типа, а не получить точный результат. Это делает тесты более устойчивыми и снижает ложные срабатывания.
Приводятся примеры кода и архитектуры тестового фреймворка. Хотя подход требует больше времени на начальную настройку, он значительно упрощает поддержку и расширение тестовой базы при добавлении новых агентов или изменении поведения существующих.