DeepReinforce выпустила Ornith-1.0: открытая семейка кодовых моделей, которая сама пишет себе обвязку
DeepReinforce выпустила открытое семейство Ornith-1.0, нацеленное на агентное написание кода. В линейку вошли четыре размера: 9B Dense, 31B Dense, 35B MoE и флагманский 397B MoE. Все модели доступны на Hugging Face под лицензией MIT и построены поверх предобученных Gemma 4 и Qwen 3.5.
Главное отличие Ornith-1.0 от конкурентов — подход к обучению. Большинство кодовых агентов используют фиксированную обвязку (scaffold), написанную человеком. Ornith-1.0 же учится писать собственную обвязку в процессе подкрепляющего обучения, совместно оптимизируя и её, и само решение. Это, по заявлению команды, даёт state-of-the-art результаты среди открытых моделей сопоставимого размера.
Флагманская Ornith-1.0-397B превосходит Claude Opus 4.7 на двух ключевых бенчмарках, но уступает Opus 4.8 и более крупной GLM-5.2-744B. Для защиты от reward hacking — когда модель обманывает метрику — разработчики внедрили трёхуровневую архитектуру: фиксированная граница доверия, детерминированный монитор и замороженный LLM-судья.
Модели доступны в форматах FP8 и GGUF для быстрой локальной раздачи. Развёртывание простое: 9B-версия занимает около 19 ГБ в bf16 и помещается на одну видеокарту с 80 ГБ памяти. Рекомендованные фреймворки для сервинга — vLLM, SGLang и Transformers. Модели выдают вызовы инструментов в формате, совместимом с OpenAI, так что стандартные агентные фреймворки работают без изменений.