
crawlee
apify
Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.
AI 简介
Crawlee 是一个用于 Node.js 的网页抓取和浏览器自动化库,旨在帮助开发者快速构建可靠的爬虫。它支持使用 Puppeteer、Playwright、Cheerio 和 JSDOM 等工具进行网页数据提取,并能够下载 HTML、PDF、JPG、PNG 等多种文件格式。Crawlee 提供了代理轮换功能,支持有头和无头模式,使得爬虫在默认配置下就能绕过现代的反爬机制。该库适用于需要从网站上大规模收集信息的场景,如为 AI、LLM(大语言模型)、RAG(检索增强生成)或 GPTs 准备训练数据等。
TypeScript
Apache License 2.023.7k
Stars
1.4k
Forks
130
Watchers
138
Issues
Star 增长
今日+15
近 7 天+80
近 30 天+587
综合评分119.46
默认分支master