Как LLM ломает классическое тестирование: личный опыт QA-инженера
Автор, проработавший 13 лет в классическом тестировании, где каждый баг имел чёткий адрес — шаг 1, шаг 2, ожидаемый и фактический результат, — столкнулся с новой реальностью при тестировании продуктов на LLM. Привычные подходы, такие как детерминированное воспроизведение ошибок, перестали работать: модель может выдать разный результат на одни и те же входные данные.
В статье разбираются ключевые точки разрыва: нестабильность ответов, сложность валидации ожидаемого поведения, отсутствие чётких границ между корректным и некорректным выводом, а также проблемы с тестированием на граничных случаях. Автор подчёркивает, что это не просто усложнение — это смена парадигмы, требующая новых методов и инструментов.
Для QA-инженеров, входящих в AI, это руководство к действию: отказ от жёстких чек-листов в пользу вероятностных метрик, внедрение A/B-тестирования и мониторинга в продакшене, а также переосмысление самого понятия «баг» в контексте LLM.