Тесты и бенчмарки

Гибель богов: Fable и 10 LLM переписывают запутанный код LangGraph — кто справился лучше?

05.07.2026 · habr.com ↗

Автор блога провёл необычный бенчмарк: он извлёк god node — перегруженную всеми задачами ноду — из рабочего LangGraph-агента и предложил 11 LLM (5 американских, включая Claude Fable, и 6 китайских) расщепить её на логические модули.

После этого модели рецензировали решения друг друга, а автор применил три разных подхода, чтобы оценить, насколько объективны были сами LLM-судьи и чьи предложения действительно ведут к чистому коду.

Результаты эксперимента — наглядное сравнение того, как разные модели понимают архитектуру агентов и умеют рефакторить сложный код, а не просто генерировать boilerplate.

Источник: habr.com

Темы: Тесты и бенчмарки