Как ИИ проверяет списки литературы: опыт доработки системы с OCR и ML
После защиты диплома автор доработал систему проверки библиографических источников. В новую версию вошли OCR для распознавания сканов, кэширование для ускорения повторных проверок, offline-режим для работы без интернета, классификация ошибок по типам, внешние проверки через API и ML-модули для анализа корректности ссылок.
В статье подробно описан пайплайн обработки: от загрузки списка литературы до выдачи отчёта с ошибками. Автор объясняет, почему полагаться только на DOI недостаточно — многие источники не имеют цифрового идентификатора или он указан неверно. Приводятся метрики точности и скорости работы системы.
Проект показывает, что проверка списка литературы — не формальность, а отдельная инженерная задача, которую можно автоматизировать с помощью современных методов обработки текста и машинного обучения.