Инструменты
Русский RAG-сплиттер с резанием по индексам: как я обучил контекстно-зависимую нарезку документов
Автор эксперимента взял датскую идею context-aware-splitter, адаптировал её под русский язык на основе модели T-lite-it-2.1 и изменил ключевой принцип: теперь модель возвращает не переписанный текст, а индексы границ. Хост режет оригинал по этим индексам, что даёт три практических плюса: экономию токенов, сохранение исходного форматирования и ускорение обработки.
Сплиттер предназначен для RAG-систем, где нужно интеллектуально делить документы на чанки, учитывая контекст, а не просто по длине или пробелам. Инструмент пока в раннем доступе, но уже демонстрирует результаты, отличные от стандартных чанкеров.
Проект опенсорсный и доступен для тестирования. Подходит для любых русскоязычных документов, где важна точная нарезка без искажения смысла.
Источник: habr.com