Код на GitHub стал однороднее из-за ChatGPT: исследование на 6 лет данных
Разработчик проанализировал данные GitHub за шесть лет — с 2019 по 2025 — через GH Archive, BigQuery и собственный индекс однородности (GitHub Uniformity Index). Исследование охватило миллионы коммитов, файлов README и имена функций: цель была проверить гипотезу, что повсеместное использование похожих AI-моделей и промптов делает открытый код стереотипным.
После появления ChatGPT и его интеграции в инструменты вроде GitHub Copilot, Cursor и Codex код, тесты и документация стали создаваться в разы быстрее. Однако, как показали данные, вместе со скоростью пришла унификация: структура коммит-сообщений, стиль описания функций и даже формат README-файлов стали всё больше напоминать друг друга.
Автор исследования рассчитал индекс однородности по нескольким метрикам: частота уникальных комбинаций слов, вариативность архитектуры библиотек и повторяемость сигнатур функций. Результаты указывают на тренд к стандартизации, который может усложнить поддержку и чтение кода в долгосрочной перспективе.
Полные данные и методика доступны в оригинальной статье на Habr. Выводы пока предварительные, но авторы призывают сообщество задуматься: не жертвуем ли мы разнообразием ради скорости — и как это повлияет на открытую экосистему в целом.