Исследования

Почему один символ в промпте убивает кэш vLLM: разбор изнутри

02.07.2026 · habr.com ↗

В первой части статьи автор сформулировал эмпирическое правило для prompt caching: стабильное в начало, изменчивое в хвост. Но объяснения, почему один символ ломает весь кэш, не было — только наблюдение.

Чтобы понять байтовую причину, автор полез в открытые исходники vLLM и paged attention. Он выясняет, что лежит на GPU в момент попадания в кэш, как движок управляет этой памятью и почему хватает одного символа, чтобы всё сбросить.

Статья — глубокое погружение в механику кэширования для разработчиков, работающих с LLM на больших масштабах.

Источник: habr.com

Темы: Исследования