Prime Intellect выпустила prime-rl 0.6.0: тренировка триллионных MoE-моделей на агентных RL-задачах
Prime Intellect представила prime-rl 0.6.0 — открытый фреймворк для асинхронного reinforcement learning, нацеленный на пост-тренинг больших моделей на агентных задачах. Ключевое новшество версии — поддержка Mixture-of-Experts (MoE) моделей с триллионом параметров. В качестве примера команда обучила GLM-5 на задачах software engineering с длиной последовательности до 131k токенов: шаги занимали менее пяти минут, размер батча — 256 роллаутов, использовано всего 28 узлов H200.
Асинхронная архитектура prime-rl разделяет trainer и inference, позволяя им масштабироваться независимо. Это критично для агентных сценариев с длинными выбросами (некоторые роллауты длятся часы). Единственная точка синхронизации — обновление политики: новые веса применяются сразу, а уже запущенные роллауты продолжают с активным кешем префиксов, смешивая токены разных версий политики. Для контроля устаревших запросов используется параметр max_off_policy_steps.
Инференс оптимизирован через FP8 (с DeepEP и DeepGEMM), широкий Expert Parallelism (≥32 GPU), разделение prefill и decode (P/D disaggregation), tiered offloading KV-кеша на CPU и диск (включая Mooncake Store), а также роутер с поддержкой Router Replay (R3), который снижает KL-расхождение на порядок. Тренировка использует 3-D параллелизм (FSDP, EP, CP) и block-scaled FP8. Фреймворк совместим с моделями вроде Kimi-K2.7-Code и NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16, запускается одной командой на Slurm-кластере.