Тесты и бенчмарки

GPT и Claude провалили финансовые тесты Bridgewater: открытая модель точнее и дешевле

03.07.2026 · the-decoder.com ↗

Bridgewater совместно с Thinking Machines Lab провели собственное исследование: они сравнили производительность GPT-4, Claude и тонко настроенной open-weight модели на задачах оценки финансовых документов. Результат — открытая модель с дообучением обошла флагманские решения ведущих лабораторий, причём с существенно меньшими затратами.

Почему GPT и Claude провалились? Авторы теста намеренно использовали вопросы, правильные ответы на которые никогда не публиковались в открытых источниках. Это значит, что мощные модели не могли просто «запомнить» их из обучающих данных — требовалось реальное понимание финансовой логики. Тонкая настройка на специфическом корпусе документов дала решающее преимущество.

Результат подчёркивает ценность дообучения для узких доменов: даже небольшая открытая модель, правильно настроенная на отраслевых данных, может переиграть огромные универсальные модели. Для бизнеса это означает, что не всегда нужно гнаться за самыми большими нейросетями — эффективность часто достигается за счёт качества данных и точной настройки.

Источник: the-decoder.com

Темы: Тесты и бенчмарки Openai Anthropic Bridgewater