Anthropic вернула Claude Fable 5: новый классификатор и система оценки джейлбрейков
Anthropic восстановила доступ к Claude Fable 5 (и Mythos 5 для избранных организаций в США) с 1 июля 2026 года. Модели были приостановлены 12 июня после того, как Amazon обнаружила метод обхода защитных механизмов Fable 5. Экспортные ограничения США требовали верификации гражданства в реальном времени, что Anthropic не могла обеспечить.
Компания обучила новый классификатор, который перехватывает более 99% попыток использовать найденную технику. Вместо отказа запрос перенаправляется на Claude Opus 4.8 с уведомлением пользователя. Тестирование показало, что уязвимость не уникальна для Fable 5 — её воспроизвели все протестированные модели, включая GPT-5.5 и Kimi K2.7. Anthropic подчёркивает, что заблокированное поведение относилось к рутинной защитной кибербезопасности.
Параллельно Anthropic совместно с Amazon, Microsoft и Google разрабатывает стандарт оценки джейлбрейков по четырём критериям: прирост возможностей, широта охвата, лёгкость превращения в оружие и обнаруживаемость. Цена Fable 5 — $10 за миллион входных токенов и $50 за выходные. Модель доступна на Claude Platform, Claude.ai, Claude Code и Claude Cowork.