Исследования
Qwen3 научили карачаево-балкарскому: свой токенизатор и морфологический процессор
Энтузиаст взял Qwen3-4B-Instruct-2507 и дообучил её на карачаево-балкарском — тюркском языке половецко-кыпчакской группы. Чтобы модель не забывала инструкции и могла отвечать, пришлось решить нетривиальную задачу баланса на сырых данных.
Для работы с диалектами написали собственный морфологический процессор, а токенизатор обучили с нуля — стандартные решения не справлялись с малоресурсным языком. Результат выложили на HuggingFace под именем TSjB/QM-4B.
Работу уже представили на профильной конференции TurkLang 2026. Автор надеется, что опыт пригодится тем, кто обучает модели на малоресурсных языках.
Источник: habr.com