Собираем AI-пайплайн для извлечения данных из счетов: туториал с lift-pdf
В туториале показано, как построить полный пайплайн для обработки счетов-фактур (accounts-payable extraction) с использованием библиотеки lift-pdf. Вместо простого OCR авторы предлагают подход schema-guided document understanding: генерируются реалистичные PDF-счета, задаются поля (поставщик, плательщик, номер заказа, позиции, налог, итоговая сумма, статус оплаты), а модель извлекает их прямо из макета документа.
Включены реальные сложности финансовых рабочих процессов: различие между bill-to и ship-to, разделение subtotal и after-tax total, обработка отсутствующих значений и корректная пометка частично оплаченных счетов как неоплаченных. Пайплан поддерживает GPU-загрузку, 4-битную квантизацию, генерацию и извлечение PDF, оценку и построение ledger-отчёта.
Код туториала доступен для запуска в Colab, включает настройку Pillow для совместимости, поддержку синтетических и реальных PDF, а также флаги для управления обработкой (N_DOCS, FORCE_4BIT, SHOW_FIRST_PAGE и др.). Это практическое пособие по документному AI для извлечения данных из счётной документации.