Исследования

Порядок имеет значение: почему VLM работают лучше, когда изображение перед текстом

18.06.2026 · habr.com ↗

Оказывается, промпты для VLM (Vision-Language Models) ведут себя неочевидно: они могут работать хуже, если инструкция стоит перед картинкой. Разработчик, настраивавший корпоративную OCR-модель, случайно наткнулся на эту проблему в issue репозитория Qwen-3-VL.

Суть фикса проста: сначала подаётся изображение, потом текстовый промпт. При обратном порядке модель может «забыть» или исказить контекст, особенно в задачах распознавания и анализа изображений. В issue автор утверждал, что точность задачи выросла только от перестановки блоков — никаких других изменений.

Почему это работает? Гипотеза в том, что VLM, в отличие от LLM, лучше «видят» и удерживают визуальную информацию, если она поступает первой. Текст, идущий после, корректирует и дополняет извлечённое, не перегружая контекст. Практический совет: для максимальной точности в задачах с изображениями всегда ставьте картинку на первое место.

Источник: habr.com

Темы: Исследования