Исследования
Почему один символ в промпте убивает кэш vLLM: разбор изнутри
В первой части статьи автор сформулировал эмпирическое правило для prompt caching: стабильное в начало, изменчивое в хвост. Но объяснения, почему один символ ломает весь кэш, не было — только наблюдение.
Чтобы понять байтовую причину, автор полез в открытые исходники vLLM и paged attention. Он выясняет, что лежит на GPU в момент попадания в кэш, как движок управляет этой памятью и почему хватает одного символа, чтобы всё сбросить.
Статья — глубокое погружение в механику кэширования для разработчиков, работающих с LLM на больших масштабах.
Источник: habr.com