Волна ИИПодписаться
← Назад
Инструменты

Русский RAG-сплиттер с резанием по индексам: как я обучил контекстно-зависимую нарезку документов

04.07.2026 · habr.com ↗

Автор эксперимента взял датскую идею context-aware-splitter, адаптировал её под русский язык на основе модели T-lite-it-2.1 и изменил ключевой принцип: теперь модель возвращает не переписанный текст, а индексы границ. Хост режет оригинал по этим индексам, что даёт три практических плюса: экономию токенов, сохранение исходного форматирования и ускорение обработки.

Сплиттер предназначен для RAG-систем, где нужно интеллектуально делить документы на чанки, учитывая контекст, а не просто по длине или пробелам. Инструмент пока в раннем доступе, но уже демонстрирует результаты, отличные от стандартных чанкеров.

Проект опенсорсный и доступен для тестирования. Подходит для любых русскоязычных документов, где важна точная нарезка без искажения смысла.

Источник: habr.com
← Все новости AI Wave