GPT и Claude провалили финансовые тесты Bridgewater: открытая модель точнее и дешевле
Bridgewater совместно с Thinking Machines Lab провели собственное исследование: они сравнили производительность GPT-4, Claude и тонко настроенной open-weight модели на задачах оценки финансовых документов. Результат — открытая модель с дообучением обошла флагманские решения ведущих лабораторий, причём с существенно меньшими затратами.
Почему GPT и Claude провалились? Авторы теста намеренно использовали вопросы, правильные ответы на которые никогда не публиковались в открытых источниках. Это значит, что мощные модели не могли просто «запомнить» их из обучающих данных — требовалось реальное понимание финансовой логики. Тонкая настройка на специфическом корпусе документов дала решающее преимущество.
Результат подчёркивает ценность дообучения для узких доменов: даже небольшая открытая модель, правильно настроенная на отраслевых данных, может переиграть огромные универсальные модели. Для бизнеса это означает, что не всегда нужно гнаться за самыми большими нейросетями — эффективность часто достигается за счёт качества данных и точной настройки.