Prompt caching: как экономить 90% на токенах и не сломать ИИ-агента
Prompt caching — техника, которая может сделать юнит-экономику LLM-агентов реальной: кэш снижает цену входных токенов до 10 раз у OpenAI, Anthropic и Google. На практике же многие разработчики сталкиваются с тем, что кэш просто не срабатывает — без ошибок в логах, но и без экономии.
Проблема в том, что разные провайдеры кэшируют по-разному. У OpenAI ключ — строгое начало промпта, у Anthropic — префикс с системным сообщением, у Google — содержимое контекстного окна. Если промпт динамический (например, с разными user_id или временем), кэш ломается.
Чтобы кэш работал стабильно, нужно: выносить динамические части в конец промпта, фиксировать статический префикс (системное сообщение + примеры), избегать случайных значений в начале. Разработчикам агентов стоит тестировать попадание в кэш через заголовки ответа API, а не полагаться на удачу.