Волна ИИПодписаться
← Назад
Инструменты

Prompt caching: как экономить 90% на токенах и не сломать ИИ-агента

18.06.2026 · habr.com ↗
Prompt caching: как экономить 90% на токенах и не сломать ИИ-агента

Prompt caching — техника, которая может сделать юнит-экономику LLM-агентов реальной: кэш снижает цену входных токенов до 10 раз у OpenAI, Anthropic и Google. На практике же многие разработчики сталкиваются с тем, что кэш просто не срабатывает — без ошибок в логах, но и без экономии.

Проблема в том, что разные провайдеры кэшируют по-разному. У OpenAI ключ — строгое начало промпта, у Anthropic — префикс с системным сообщением, у Google — содержимое контекстного окна. Если промпт динамический (например, с разными user_id или временем), кэш ломается.

Чтобы кэш работал стабильно, нужно: выносить динамические части в конец промпта, фиксировать статический префикс (системное сообщение + примеры), избегать случайных значений в начале. Разработчикам агентов стоит тестировать попадание в кэш через заголовки ответа API, а не полагаться на удачу.

Источник: habr.com
← Все новости AI Wave