Инструменты

Как ИИ проверяет списки литературы: опыт доработки системы с OCR и ML

05.07.2026 · habr.com ↗

После защиты диплома автор доработал систему проверки библиографических источников. В новую версию вошли OCR для распознавания сканов, кэширование для ускорения повторных проверок, offline-режим для работы без интернета, классификация ошибок по типам, внешние проверки через API и ML-модули для анализа корректности ссылок.

В статье подробно описан пайплайн обработки: от загрузки списка литературы до выдачи отчёта с ошибками. Автор объясняет, почему полагаться только на DOI недостаточно — многие источники не имеют цифрового идентификатора или он указан неверно. Приводятся метрики точности и скорости работы системы.

Проект показывает, что проверка списка литературы — не формальность, а отдельная инженерная задача, которую можно автоматизировать с помощью современных методов обработки текста и машинного обучения.

Источник: habr.com

Темы: Инструменты