Волна ИИПодписаться
← Назад
Исследования

Qwen3 научили карачаево-балкарскому: свой токенизатор и морфологический процессор

05.07.2026 · habr.com ↗

Энтузиаст взял Qwen3-4B-Instruct-2507 и дообучил её на карачаево-балкарском — тюркском языке половецко-кыпчакской группы. Чтобы модель не забывала инструкции и могла отвечать, пришлось решить нетривиальную задачу баланса на сырых данных.

Для работы с диалектами написали собственный морфологический процессор, а токенизатор обучили с нуля — стандартные решения не справлялись с малоресурсным языком. Результат выложили на HuggingFace под именем TSjB/QM-4B.

Работу уже представили на профильной конференции TurkLang 2026. Автор надеется, что опыт пригодится тем, кто обучает модели на малоресурсных языках.

Источник: habr.com
← Все новости AI Wave