Порядок имеет значение: почему VLM работают лучше, когда изображение перед текстом
Оказывается, промпты для VLM (Vision-Language Models) ведут себя неочевидно: они могут работать хуже, если инструкция стоит перед картинкой. Разработчик, настраивавший корпоративную OCR-модель, случайно наткнулся на эту проблему в issue репозитория Qwen-3-VL.
Суть фикса проста: сначала подаётся изображение, потом текстовый промпт. При обратном порядке модель может «забыть» или исказить контекст, особенно в задачах распознавания и анализа изображений. В issue автор утверждал, что точность задачи выросла только от перестановки блоков — никаких других изменений.
Почему это работает? Гипотеза в том, что VLM, в отличие от LLM, лучше «видят» и удерживают визуальную информацию, если она поступает первой. Текст, идущий после, корректирует и дополняет извлечённое, не перегружая контекст. Практический совет: для максимальной точности в задачах с изображениями всегда ставьте картинку на первое место.