Инструменты
OCRmyPDF: превращаем отсканированные документы в поисковые PDF/A за один скрипт
Туториал описывает создание самодостаточного пайплайна OCRmyPDF: от установки системных зависимостей (Tesseract, Ghostscript, unpaper, pngquant, Poppler, qpdf) и Python-пакетов до сборки jbig2enc для компактных файлов. В качестве теста генерируется синтетический сканированный PDF.
Далее демонстрируется работа с реальным API OCRmyPDF: конвертация в поисковый PDF, генерация PDF/A, выделение sidecar-текста, валидация, сравнение размеров, настройка Tesseract, очистка шумов, обработка уже распознанных файлов, работа с DPI-подсказками, запуск в памяти и пачка обработки десятков PDF.
Источник: marktechpost.com