apify

crawlee-python

apify

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Parsel, BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

AI 简介

Crawlee 是一个用于 Python 的网页抓取和浏览器自动化库,旨在帮助开发者构建可靠的爬虫。它支持从网站下载 HTML、PDF、JPG、PNG 等多种格式的文件,并且能够与 Parsel、BeautifulSoup、Playwright 以及原始 HTTP 请求集成,提供头模式和无头模式运行选项,并支持代理轮换,以增强数据采集过程中的稳定性和隐蔽性。适用于需要收集网络数据供 AI 模型训练、LLM(大语言模型)、RAG(检索增强生成)或 GPTs 使用的场景,也适合任何希望简化复杂网页数据抓取工作的项目。

Python
Apache License 2.0
9.2k
Stars
750
Forks
45
Watchers
73
Issues

Star 增长

今日0
近 7 天+17
近 30 天+123
综合评分83.13
默认分支master