Тесты и бенчмарки

Сравнение Claude Opus 4.8, GPT-5.5 и Gemini 3.1 Pro: практические тесты вместо бенчмарков

19.06.2026 · habr.com ↗

Anthropic недавно выпустила Claude Opus 4.8 с улучшенным кодингом и Fast Mode. Редакция решила проверить, как модель справляется с будничными задачами в сравнении с GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google.

Тестирование проходит через агрегатор BotHub, работающий по API — это исключает подпорки, которые неявно помогают моделям в веб-интерфейсе. Стоимость каждой задачи измеряется в CAPS (внутренняя валюта сервиса): грубо, 1 рубль = 4000 CAPS.

Победитель определяется субъективно, а все результаты прилагаются — читатели могут не согласиться с мнением автора. Цель — не сухие цифры, а практическая оценка того, какая модель лучше решает повседневные проблемы.

Источник: habr.com

Темы: Тесты и бенчмарки Anthropic Openai Bithub