Тесты и бенчмарки
Сравнение Claude Opus 4.8, GPT-5.5 и Gemini 3.1 Pro: практические тесты вместо бенчмарков
Anthropic недавно выпустила Claude Opus 4.8 с улучшенным кодингом и Fast Mode. Редакция решила проверить, как модель справляется с будничными задачами в сравнении с GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google.
Тестирование проходит через агрегатор BotHub, работающий по API — это исключает подпорки, которые неявно помогают моделям в веб-интерфейсе. Стоимость каждой задачи измеряется в CAPS (внутренняя валюта сервиса): грубо, 1 рубль = 4000 CAPS.
Победитель определяется субъективно, а все результаты прилагаются — читатели могут не согласиться с мнением автора. Цель — не сухие цифры, а практическая оценка того, какая модель лучше решает повседневные проблемы.
Источник: habr.com