Модели и агенты

Baidu выпустила Unlimited OCR — 3B модель с плоским KV-кэшем для длинных документов

25.06.2026 · marktechpost.com ↗

Большинство end-to-end OCR-моделей замедляются по мере роста вывода: каждый новый токен увеличивает KV-кэш, память растёт, генерация тормозит. Парсинг десятков страниц становится непрактичным. Baidu решила эту проблему в Unlimited OCR — 3B-параметрической модели (всего 500M активных) на основе Mixture-of-Experts, заменив стандартное внимание декодера на Reference Sliding Window Attention (R-SWA). Это позволяет держать KV-кэш константным вне зависимости от длины вывода.

R-SWA работает так: каждый генерируемый токен обращается ко всем референсным токенам (визуальным и промпту) и к последним n=128 выходным токенам. Всё старшее удаляется. Размер кэша становится фиксированным: m + n, где m — число референсных токенов. Это напоминает «мягкое забывание»: человек, переписывая книгу, смотрит на источник и последние несколько слов, а не перечитывает всё написанное. Визуальные токены не обновляются, что избегает размытия, свойственного линейному вниманию.

Модель использует DeepEncoder — компрессор, каскадирующий SAM-ViT с оконным вниманием и CLIP-ViT с глобальным вниманием, сжимая 1024×1024 PDF-изображение до 256 визуальных токенов (16× сжатие). Поддерживаются два режима: Base (1024×1024 для многстраничных документов) и Gundam (динамическое разрешение для одиночных страниц). Unlimited OCR набрала 93.23 на бенчмарке OmniDocBench v1.5, превзойдя DeepSeek OCR на 6.22 пункта. Модель дообучена на базе DeepSeek OCR, а не создана с нуля.

Источник: marktechpost.com

Темы: Модели и агенты Baidu Deepseek