Практическое руководство: как работать с датасетом FineWeb — стриминг, фильтрация, дедупликация и токенизация
Представлен пошаговый код для стриминга 3000 документов из FineWeb sample-10BT с помощью библиотеки datasets. В процессе загружаются метаданные: URL, язык, языковой скор и количество токенов. Это позволяет работать с данными без скачивания многотерабайтного корпуса целиком.
Реализованы упрощённые версии фильтров качества из Gopher и C4: проверка длины слов, доли стоп-слов, количества символов, дублирования строк и bullet-пунктов. На уже очищенном FineWeb большинство документов проходят проверку, но фильтры выявляют редкие выбросы.
Также применяется MinHash для обнаружения почти дублирующихся документов, токенизация через GPT-2 токенизатор для верификации token_count, и генерация аналитики по доменам, языковым скорам и эффективности токенизатора. Код полностью воспроизводим и подходит для обучения.