OpenAI выпустила LifeSciBench: ИИ-модели заваливают 750 задач из реальной биологии — даже лучшая проходит лишь треть
OpenAI выпустила LifeSciBench — бенчмарк, который проверяет способность ИИ-моделей решать задачи из реальной практики биологов и фармацевтов. В отличие от стандартных тестов с однозначными ответами, здесь каждое из 750 заданий имитирует рабочий процесс учёного: анализ данных, дизайн экспериментов, принятие решений на основе неполных и противоречивых свидетельств.
Бенчмарк покрывает 7 научных воркфлоу и 7 биологических доменов — от геномики до клинической науки. Каждое задание содержит промпт, сопутствующие артефакты (последовательности, таблицы, графики, химические структуры) и рубрику из ~25 критериев (всего 19 020 критериев). Модель оценивается не по одному правильному ответу, а по баллам: за каждый критерий начисляются очки. Проходной порог — 70% баллов.
OpenAI протестировала пять моделей. Лучший результат показала специализированная GPT-Rosalind: 36,1% пройденных задач при нормализованном скорре 0,576. GPT-5.5 завалил 74,3% задач (25,7% прохода). Заметно, что модели справляются с текстовыми заданиями (у GPT-Rosalind 45,1% прохода), но резко проседают на задачах с артефактами (28,1%). Хуже всего даются точные структурные ответы — последовательности и химические формулы.
Бенчмарк открыт и не насыщен: даже топовые модели проходят лишь треть задач. Это значит, что LifeSciBench станет важным инструментом для развития ИИ в научных дисциплинах. Код и данные доступны в репозитории OpenAI.