Инструменты

GigaChat vs Claude: как российская LLM справляется с аудитом файрвола — и почему это важно для госсектора

15.06.2026 · habr.com ↗

Сберовская GigaChat Max пошла в лоб против Claude Opus 4.8 в задаче агентского аудита конфигураций Ideco NGFW. Исследователи взяли одного агента (Hermes с открытой библиотекой Agent Skills), один навык и одинаковые входные данные — по сути, просто подменили модель, оставив всю инфраструктуру неизменной.

Почему это вообще обсуждается? Если ты работаешь в банке, госкомпании или на объекте КИИ, гнать реальную выгрузку правил боевого файрвола в облако Anthropic — это не вопрос удобства, а нарушение законодательства. GigaChat работает в российском контуре, и если он справляется с аудитом на приемлемом уровне, это меняет ландшафт для целого класса заказчиков.

Честно говоря, «настоящего» агентского теста не вышло: Claude Fable 5, несмотря на все ИБ-скиллы команды, отказался работать, даже когда был доступен. Так что сравнение осталось неполным. Но уже понятно: для первичного triage хватает и дешёвой модели, а глубокое расследование пока остаётся за сильными западными LLM, если нет требований к импортозамещению.

Сколько это стоило в токенах и рублях — авторы обещают раскрыть в материале. Но ключевой вывод лежит на поверхности: для конфиденциальных сред российская LLM — уже рабочий вариант, хотя и с ограничениями по глубине анализа.

Источник: habr.com

Темы: Инструменты Sberbank Anthropic