[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-8503":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":15,"stars7d":15,"stars30d":15,"stars90d":15,"forks30d":15,"starsTrendScore":15,"compositeScore":16,"rankGlobal":9,"rankLanguage":9,"license":9,"archived":17,"fork":17,"defaultBranch":18,"hasWiki":19,"hasPages":17,"topics":20,"createdAt":9,"pushedAt":9,"updatedAt":22,"readmeContent":23,"aiSummary":24,"trendingCount":15,"starSnapshotCount":15,"syncStatus":25,"lastSyncTime":26,"discoverSource":27},8503,"phpspider","owner888\u002Fphpspider","owner888","《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言 》所使用的程序",null,"PHP",3474,1153,229,112,0,58.19,false,"master",true,[21,5],"php","2026-06-12 04:00:39","# phpspider -- PHP蜘蛛爬虫框架\n《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言 》所使用的程序  \n\nphpspider是一个爬虫开发框架。使用本框架，你不用了解爬虫的底层技术实现，爬虫被网站屏蔽、有些网站需要登录或验证码识别才能爬取等问题。简单几行PHP代码，就可以创建自己的爬虫，利用框架封装的多进程Worker类库，代码更简洁，执行效率更高速度更快。\n\ndemo目录下有一些特定网站的爬取规则，只要你安装了PHP环境，代码就可以在命令行下直接跑。 对爬虫感兴趣的开发者可以加QQ群一起讨论：147824717。\n\n下面以糗事百科为例, 来看一下我们的爬虫长什么样子:\n\n```\n$configs = array(\n    'name' => '糗事百科',\n    'domains' => array(\n        'qiushibaike.com',\n        'www.qiushibaike.com'\n    ),\n    'scan_urls' => array(\n        'http:\u002F\u002Fwww.qiushibaike.com\u002F'\n    ),\n    'content_url_regexes' => array(\n        \"http:\u002F\u002Fwww.qiushibaike.com\u002Farticle\u002F\\d+\"\n    ),\n    'list_url_regexes' => array(\n        \"http:\u002F\u002Fwww.qiushibaike.com\u002F8hr\u002Fpage\u002F\\d+\\?s=\\d+\"\n    ),\n    'fields' => array(\n        array(\n            \u002F\u002F 抽取内容页的文章内容\n            'name' => \"article_content\",\n            'selector' => \"\u002F\u002F*[@id='single-next-link']\",\n            'required' => true\n        ),\n        array(\n            \u002F\u002F 抽取内容页的文章作者\n            'name' => \"article_author\",\n            'selector' => \"\u002F\u002Fdiv[contains(@class,'author')]\u002F\u002Fh2\",\n            'required' => true\n        ),\n    ),\n);\n$spider = new phpspider($configs);\n$spider->start();\n```\n爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用```$spider = new phpspider($configs);```和```$spider->start();```来配置并启动爬虫.\n\n#### 运行界面如下:      \n\n![](http:\u002F\u002Fwww.epooll.com\u002Fzhihu\u002Fpachong.gif)\n\n更多详细内容，移步到：\n\n[开发文档](http:\u002F\u002Fdoc.phpspider.org)\n","phpspider是一个基于PHP的爬虫开发框架，旨在简化网页数据抓取过程。其核心功能包括自动处理网站反爬机制、支持登录验证及验证码识别，并通过内置的多进程Worker类库提升执行效率与速度。用户只需编写少量代码即可定义爬虫规则并启动任务，特别适用于需要快速搭建爬虫项目的场景，如数据采集、市场调研等。此外，项目提供了多个示例配置文件，帮助开发者快速上手，适合对Web爬虫感兴趣的技术人员使用。",2,"2026-06-11 03:18:20","top_language"]