Морфоанализатор ингушского языка: как ИИ помогает понимать словоформы в редком языке
Разработчик проекта PaydaDosh рассказал о превращении открытого словаря ингушского языка в инструмент с морфологическим анализатором на основе ИИ. За два месяца к 66 тысячам статей добавился движок, который разбирает устройство ингушского слова — непростую агглютинативную морфологию с множеством аффиксов.
Статья подробно описывает, как устроен разбор словоформ, где возникают ошибки и как проект развивается: публикуются корпус, появляются инструменты для сообщества, налажены первые контакты с академическим институтом. Движок пока в бете, часть форм строится по правилам и может содержать неточности — автор намеренно показывает и удачи, и промахи.
Хотя основной фокус проекта — лингвистика, в разделе вопросов уже используется ИИ, а сам подход к автоматическому анализу редкого языка интересен с точки зрения прикладных NLP-решений.