Тесты и бенчмарки
CEO-Bench: выжить стартапу 500 дней смогли только три ИИ-модели из многих
Учёные из Принстонского университета разработали бенчмарк CEO-Bench: ИИ-агентам поручают управлять вымышленной софтверной компанией в течение 500 симулированных дней. Тест показал, что большинство современных моделей неспособны удержать бизнес на плаву — они теряют стартовый капитал.
Лишь три ИИ-модели завершили симуляцию с прибылью выше начального капитала. Примечательно, что простой набор эвристик на основе правил без какого-либо ИИ превзошёл почти все нейросетевые модели, доказав, что в таких задачах базовые подходы порой эффективнее сложного ИИ.
Результаты подчёркивают разрыв между способностями ИИ к рассуждению и реальным управленческим мастерством в динамичной среде стартапа, где требуются стратегическое планирование и адаптация.
Источник: the-decoder.com