Туториал: как собрать качественные данные для дообучения ИИ-агентов из датасета NVIDIA Open-SWE-Traces
В туториале на MarkTechPost показан практический подход к работе с датасетом Open-SWE-Traces от NVIDIA. Авторы стримят данные напрямую с Hugging Face, что позволяет эффективно обрабатывать большой объём без локальной загрузки — прямо в Google Colab. Они нормализуют многошаговые диалоги агентов, парсят финальные патчи кода, извлекают метаданные и строят DataFrame для анализа длины траекторий, использования инструментов, размера патчей, языкового распределения и результатов.
На основе этих инсайтов создаётся курированный набор для supervised fine-tuning: в него попадают только высококачественные траектории, отобранные по критериям успешности, токенному бюджету (до 32 000 токенов), языковым фильтрам и наличию патчей. В туториале используются агенты OpenHands и SWE-agent с моделями MiniMax M25 и Qwen3.5 122B.
Практическая ценность — готовый рецепт для инженеров, которые хотят подготовить собственные данные для дообучения кодовых агентов, избежав мусора и шума. Код и настройки полностью открыты и воспроизводимы.