Тесты и бенчмарки

CEO-Bench: выжить стартапу 500 дней смогли только три ИИ-модели из многих

28.06.2026 · the-decoder.com ↗

Учёные из Принстонского университета разработали бенчмарк CEO-Bench: ИИ-агентам поручают управлять вымышленной софтверной компанией в течение 500 симулированных дней. Тест показал, что большинство современных моделей неспособны удержать бизнес на плаву — они теряют стартовый капитал.

Лишь три ИИ-модели завершили симуляцию с прибылью выше начального капитала. Примечательно, что простой набор эвристик на основе правил без какого-либо ИИ превзошёл почти все нейросетевые модели, доказав, что в таких задачах базовые подходы порой эффективнее сложного ИИ.

Результаты подчёркивают разрыв между способностями ИИ к рассуждению и реальным управленческим мастерством в динамичной среде стартапа, где требуются стратегическое планирование и адаптация.

Источник: the-decoder.com

Темы: Тесты и бенчмарки