Инструменты

PDF в JSON за копейки: какие open-source модели вытаскивают данные лучше всех в 2026

05.07.2026 · marktechpost.com ↗

Под общим названием «PDF to JSON» скрываются две разные задачи: schema-driven extraction (вы заранее знаете, какие поля нужны, и модель заполняет их значениями) и document parsing (модель реконструирует страницу целиком с layout, таблицами и формулами в Markdown или JSON). Ошибка в выборе категории может стоить недель разработки.

Главный герой первого направления — Datalab lift: 9B vision-модель на базе Qwen 3.5. Она принимает JSON-схему и гарантирует валидный вывод благодаря схемно-ограниченной декодировке. По тестам на 225 документах лифт даёт 90.2% точности полей при медианной задержке 9.5 с, обгоняя NuExtract3 (81.5%) и Qwen3.5-9B (76.3%). Однако полная точность документа — лишь 20.9%, так что выловить все ошибки в длинных документах пока сложно. Веса распространяются под модифицированной OpenRAIL-M: для research, личного использования и стартапов с финансированием до $5 млн — бесплатно, коммерческий хостинг требует лицензии.

NuMind NuExtract 3 — 4B модель, объединяющая структурированное извлечение и OCR в Markdown. Работает через vLLM с OpenAI-совместимым API и Python SDK. В отличие от lift, NuExtract 3 не требует отдельного парсера для контента. ИБМ Docling, перешедший во владение LF AI & Data Foundation, наоборот, закрывает задачу document parsing: обрабатывает PDF, DOCX, PPTX, XLSX, HTML, изображения и выдаёт Markdown, JSON или DocTags. Подходит для подготовки корпусов для RAG.

Вывод: если вам нужно вытащить поля из инвойсов, контрактов или чеков — смотрите в сторону lift или NuExtract 3. Если задача — конвертировать сканкниги или слайды в чистый Markdown для дальнейшей переработки агентом, лучше взять Docling. Оба направления экономически оправданы при больших объёмах: облачные API стоят тысячи долларов за миллион страниц и требуют передачи данных наружу, а локальные модели снимают обе проблемы.

Источник: marktechpost.com

Темы: Инструменты Datalab Numind Ibm Qwen