Тесты и бенчмарки
Гибель богов: Fable и 10 LLM переписывают запутанный код LangGraph — кто справился лучше?
Автор блога провёл необычный бенчмарк: он извлёк god node — перегруженную всеми задачами ноду — из рабочего LangGraph-агента и предложил 11 LLM (5 американских, включая Claude Fable, и 6 китайских) расщепить её на логические модули.
После этого модели рецензировали решения друг друга, а автор применил три разных подхода, чтобы оценить, насколько объективны были сами LLM-судьи и чьи предложения действительно ведут к чистому коду.
Результаты эксперимента — наглядное сравнение того, как разные модели понимают архитектуру агентов и умеют рефакторить сложный код, а не просто генерировать boilerplate.
Источник: habr.com