Инструменты
Собираем пайплайн веб-краулинга на Crawlee для Python: robots.txt, граф ссылок и экспорт для RAG
В туториале последовательно разбирается полный пайплайн веб-краулинга на Crawlee для Python. Начинается с установки зависимостей (Crawlee, Pydantic, Playwright), настройки окружения и генерации локального демо-сайта с продуктами, документацией, блогом, robots.txt и JavaScript-рендерингом.
Для разных задач используются разные краулеры: BeautifulSoupCrawler для быстрого рекурсивного HTML-парсинга, ParselCrawler для точного извлечения по CSS и XPath, и PlaywrightCrawler для рендеринга динамического контента в headless Chromium. В конце показан экспорт данных — структурированные записи и чанки текста для RAG.
Источник: marktechpost.com