[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-748":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":25,"hasPages":25,"topics":26,"createdAt":10,"pushedAt":10,"updatedAt":27,"readmeContent":28,"aiSummary":29,"trendingCount":16,"starSnapshotCount":16,"syncStatus":30,"lastSyncTime":31,"discoverSource":32},748,"MediaCrawler","NanmiCoder\u002FMediaCrawler","NanmiCoder","小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 ｜ 评论爬虫、微博帖子 ｜ 评论爬虫、百度贴吧帖子 ｜ 百度贴吧评论回复爬虫  | 知乎问答文章｜评论爬虫","https:\u002F\u002Fnanmicoder.github.io\u002FMediaCrawler\u002F",null,"Python",51069,10719,220,153,0,49,385,1643,289,45,"Other",false,"main",true,[],"2026-06-12 02:00:18","# 🔥 MediaCrawler - 自媒体平台爬虫 🕷️\n\n\u003Cdiv align=\"center\">\n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F8291\" target=\"_blank\">\n  \u003Cimg src=\"https:\u002F\u002Ftrendshift.io\u002Fapi\u002Fbadge\u002Frepositories\u002F8291\" alt=\"NanmiCoder%2FMediaCrawler | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\n\u003C\u002Fa>\n\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FNanmiCoder\u002FMediaCrawler?style=social)](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FMediaCrawler\u002Fstargazers)\n[![GitHub Forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002FNanmiCoder\u002FMediaCrawler?style=social)](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FMediaCrawler\u002Fnetwork\u002Fmembers)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FNanmiCoder\u002FMediaCrawler)](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FMediaCrawler\u002Fissues)\n[![GitHub Pull Requests](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002FNanmiCoder\u002FMediaCrawler)](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FMediaCrawler\u002Fpulls)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002FNanmiCoder\u002FMediaCrawler)](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FMediaCrawler\u002Fblob\u002Fmain\u002FLICENSE)\n[![中文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🇨🇳_中文-当前-blue)](README.md)\n[![English](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🇺🇸_English-Available-green)](README_en.md)\n[![Español](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🇪🇸_Español-Available-green)](README_es.md)\n\u003C\u002Fdiv>\n\n\n\n> **免责声明：**\n> \n> 大家请以学习为目的使用本仓库⚠️⚠️⚠️⚠️，[爬虫违法违规的案件](https:\u002F\u002Fgithub.com\u002FHiddenStrawberry\u002FCrawler_Illegal_Cases_In_China)  \u003Cbr>\n>\n>本仓库的所有内容仅供学习和参考之用，禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究，不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任，本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。\n>\n> 点击查看更为详细的免责声明。[点击跳转](#disclaimer)\n\n\n\n\n## 📖 项目简介\n\n一个功能强大的**多平台自媒体数据采集工具**，支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取。\n\n### 🔧 技术原理\n\n- **核心技术**：基于 [Playwright](https:\u002F\u002Fplaywright.dev\u002F) 浏览器自动化框架登录保存登录态\n- **无需JS逆向**：利用保留登录态的浏览器上下文环境，通过 JS 表达式获取签名参数\n- **优势特点**：无需逆向复杂的加密算法，大幅降低技术门槛\n\n\n## ✨ 功能特性\n| 平台   | 关键词搜索 | 指定帖子ID爬取 | 二级评论 | 指定创作者主页 | 登录态缓存 | IP代理池 | 生成评论词云图 |\n| ------ | ---------- | -------------- | -------- | -------------- | ---------- | -------- | -------------- |\n| 小红书 | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n| 抖音   | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n| 快手   | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n| B 站   | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n| 微博   | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n| 贴吧   | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n| 知乎   | ✅          | ✅              | ✅        | ✅              | ✅          | ✅        | ✅              |\n\n\n\n\u003Cstrong>MediaCrawlerPro 重磅发布！开源不易，欢迎订阅支持\u003C\u002Fstrong>\n\n> 专注于学习成熟项目的架构设计，不仅仅是爬虫技术，Pro 版本的代码设计思路同样值得深入学习！\n\n[MediaCrawlerPro](https:\u002F\u002Fgithub.com\u002FMediaCrawlerPro) 相较于开源版本的核心优势：\n\n#### 🎯 核心功能升级\n- ✅ **自媒体内容拆解Agent**（新增功能）\n- ✅ **断点续爬功能**（重点特性）\n- ✅ **多账号 + IP代理池支持**（重点特性）\n- ✅ **去除 Playwright 依赖**，使用更简单\n- ✅ **完整 Linux 环境支持**\n\n#### 🏗️ 架构设计优化\n- ✅ **代码重构优化**，更易读易维护（解耦 JS 签名逻辑）\n- ✅ **企业级代码质量**，适合构建大型爬虫项目\n- ✅ **完美架构设计**，高扩展性，源码学习价值更大\n\n#### 🎁 额外功能\n- ✅ **自媒体视频下载器桌面端**（适合学习全栈开发）\n- ✅ **多平台首页信息流推荐**（HomeFeed）\n- ✅ **AI Agent Skill 支持**（[OpenClaw](https:\u002F\u002Fopenclaw.ai\u002F) 🦞 \u002F Claude Code \u002F Cursor 一键安装，让 Agent 自动爬取数据）\n- [ ] **基于评论分析AI Agent正在开发中 🚀🚀**\n\n点击查看：[MediaCrawlerPro 项目主页](https:\u002F\u002Fgithub.com\u002FMediaCrawlerPro) 更多介绍\n\n\n\n## 🚀 快速开始\n\n> 💡 **如果这个项目对您有帮助，请给个 ⭐ Star 支持一下！**\n\n## 📋 前置依赖\n\n### 🚀 uv 安装（推荐）\n\n在进行下一步操作之前，请确保电脑上已经安装了 uv：\n\n- **安装地址**：[uv 官方安装指南](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002Fgetting-started\u002Finstallation)\n- **验证安装**：终端输入命令 `uv --version`，如果正常显示版本号，证明已经安装成功\n- **推荐理由**：uv 是目前最强的 Python 包管理工具，速度快、依赖解析准确\n\n### 🟢 Node.js 安装\n\n项目依赖 Node.js，请前往官网下载安装：\n\n- **下载地址**：https:\u002F\u002Fnodejs.org\u002Fen\u002Fdownload\u002F\n- **版本要求**：>= 16.0.0\n\n### 📦 Python 包安装\n\n```shell\n# 进入项目目录\ncd MediaCrawler\n\n# 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性\nuv sync\n```\n\n### 🌐 浏览器驱动安装（可选）\n\n> 如果使用默认的 CDP 模式（连接已有 Chrome 浏览器），**无需安装浏览器驱动**。仅在使用标准 Playwright 模式时需要安装。\n\n```shell\n# 仅在标准 Playwright 模式下需要安装浏览器驱动\nuv run playwright install\n```\n\n### 🌍 Chrome 浏览器配置（推荐）\n\n项目默认使用 CDP 模式连接用户已有的 Chrome 浏览器，可以复用浏览器已有的登录状态、Cookie、扩展等，**大幅降低平台风控检测风险**。\n\n使用前需要：\n\n1. **安装最新版 Chrome 浏览器**（版本 >= 144），[下载地址](https:\u002F\u002Fwww.google.com\u002Fchrome\u002F)\n2. **开启远程调试功能**：在 Chrome 地址栏输入 `chrome:\u002F\u002Finspect\u002F#remote-debugging`，勾选 **\"Allow remote debugging for this browser instance\"**\n3. 页面显示 `Server running at: 127.0.0.1:9222` 表示已就绪\n\n> 💡 **提示**：运行爬虫后，Chrome 浏览器会弹出确认对话框，点击\"接受\"即可。程序会等待用户确认，60秒内操作完成即可。\n>\n> 如果不想使用 CDP 模式，可以在 `config\u002Fbase_config.py` 中设置 `ENABLE_CDP_MODE = False` 切换为标准 Playwright 模式。\n\n## 🚀 运行爬虫程序\n\n```shell\n# 在 config\u002Fbase_config.py 查看配置项目功能，写的有中文注释\n\n# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论\nuv run main.py --platform xhs --lt qrcode --type search\n\n# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息\nuv run main.py --platform xhs --lt qrcode --type detail\n\n# 打开对应APP扫二维码登录\n\n# 其他平台爬虫使用示例，执行下面的命令查看\nuv run main.py --help\n```\n\n\u003Cdetails>\n\u003Csummary>🖥️ \u003Cstrong>WebUI 可视化操作界面\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nMediaCrawler 提供了基于 Web 的可视化操作界面，无需命令行也能轻松使用爬虫功能。\n\n#### 启动 WebUI 服务\n\n```shell\n# 启动 API 服务器（默认端口 8080）\nuv run uvicorn api.main:app --port 8080 --reload\n\n# 或者使用模块方式启动\nuv run python -m api.main\n```\n\n启动成功后，访问 `http:\u002F\u002Flocalhost:8080` 即可打开 WebUI 界面。\n\n#### WebUI 功能特性\n\n- 可视化配置爬虫参数（平台、登录方式、爬取类型等）\n- 实时查看爬虫运行状态和日志\n- 数据预览和导出\n\n#### 界面预览\n\n\u003Cimg src=\"docs\u002Fstatic\u002Fimages\u002Fimg_8.png\" alt=\"WebUI 界面预览\">\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>🔗 \u003Cstrong>使用 Python 原生 venv 管理环境（不推荐）\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n#### 创建并激活 Python 虚拟环境\n\n> 如果是爬取抖音和知乎，需要提前安装 nodejs 环境，版本大于等于：`16` 即可\n\n```shell\n# 进入项目根目录\ncd MediaCrawler\n\n# 创建虚拟环境\n# 我的 python 版本是：3.11 requirements.txt 中的库是基于这个版本的\n# 如果是其他 python 版本，可能 requirements.txt 中的库不兼容，需自行解决\npython -m venv venv\n\n# macOS & Linux 激活虚拟环境\nsource venv\u002Fbin\u002Factivate\n\n# Windows 激活虚拟环境\nvenv\\Scripts\\activate\n```\n\n#### 安装依赖库\n\n```shell\npip install -r requirements.txt\n```\n\n#### 安装 playwright 浏览器驱动\n\n```shell\nplaywright install\n```\n\n#### 运行爬虫程序（原生环境）\n\n```shell\n# 项目默认是没有开启评论爬取模式，如需评论请在 config\u002Fbase_config.py 中的 ENABLE_GET_COMMENTS 变量修改\n# 一些其他支持项，也可以在 config\u002Fbase_config.py 查看功能，写的有中文注释\n\n# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论\npython main.py --platform xhs --lt qrcode --type search\n\n# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息\npython main.py --platform xhs --lt qrcode --type detail\n\n# 打开对应APP扫二维码登录\n\n# 其他平台爬虫使用示例，执行下面的命令查看\npython main.py --help\n```\n\n\u003C\u002Fdetails>\n\n\n## 💾 数据保存\n\nMediaCrawler 支持多种数据存储方式，包括 CSV、JSON、JSONL、Excel、SQLite 和 MySQL 数据库。\n\n📖 **详细使用说明请查看：[数据存储指南](docs\u002Fdata_storage_guide.md)**\n\n\n[🚀 MediaCrawlerPro 重磅发布 🚀！更多的功能，更好的架构设计！开源不易，欢迎订阅支持！](https:\u002F\u002Fgithub.com\u002FMediaCrawlerPro)\n\n\n## 💬 交流群组\n- **微信交流群**：[点击加入](https:\u002F\u002Fnanmicoder.github.io\u002FMediaCrawler\u002F%E5%BE%AE%E4%BF%A1%E4%BA%A4%E6%B5%81%E7%BE%A4.html)\n- **B站账号**：[关注我](https:\u002F\u002Fspace.bilibili.com\u002F434377496)，分享AI与爬虫技术知识\n\n\n## 💰 赞助商展示\n\n\u003Ca href=\"https:\u002F\u002Ftikhub.io\u002F?utm_source=github.com\u002FNanmiCoder\u002FMediaCrawler&utm_medium=marketing_social&utm_campaign=retargeting&utm_content=carousel_ad\">\n\u003Cimg width=\"500\" src=\"docs\u002Fstatic\u002Fimages\u002Ftikhub_banner_zh.png\">\n\u003Cbr>\nTikHub.io 提供 900+ 高稳定性数据接口，覆盖 TK、DY、XHS、Y2B、Ins、X 等 14+ 海内外主流平台，支持用户、内容、商品、评论等多维度公开数据 API，并配套 4000 万+ 已清洗结构化数据集，使用邀请码 \u003Ccode>cfzyejV9\u003C\u002Fcode> 注册并充值，即可额外获得 $2 赠送额度。\n\u003C\u002Fa>\n\n\u003Cbr>\n\u003Cbr>\n\n\u003Ca href=\"https:\u002F\u002Flegionproxy.io\u002F?utm_source=github&utm_campaign=mediacrawler\">\n\u003Cimg width=\"420\" src=\"docs\u002Fstatic\u002Fimages\u002Flegionproxy_banner.jpg\" alt=\"LegionProxy residential proxy sponsor banner\">\n\u003Cbr>\nLegionProxy 专为账号注册与自动化场景提供住宅代理网络，覆盖 74M+ 真实住宅 IP、195+ 国家，支持 HTTP\u002F3 高速连接，价格 $0.60\u002FGB 起。\n\u003C\u002Fa>\n\n---\n\n## 🤝 成为赞助者\n\n成为赞助者，可以将您的产品展示在这里，每天获得大量曝光！\n\n**联系方式**：\n- 微信：`relakkes`\n- 邮箱：`relakkes@gmail.com`\n---\n\n## ☕ 请作者喝杯咖啡\n\n如果这个项目对您有帮助，欢迎打赏支持，您的每一份支持都是我持续更新的动力 ❤️\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Cimg src=\"docs\u002Fstatic\u002Fimages\u002Fwechat_pay.jpeg\" width=\"250\" alt=\"微信赞赏\">\u003Cbr>\n\u003Cb>微信赞赏\u003C\u002Fb>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Cimg src=\"docs\u002Fstatic\u002Fimages\u002Fzfb_pay.png\" width=\"250\" alt=\"支付宝\">\u003Cbr>\n\u003Cb>支付宝\u003C\u002Fb>\n\u003C\u002Ftd>\n\u003Ctd align=\"center\" width=\"33%\">\n\u003Ca href=\"https:\u002F\u002Fbuymeacoffee.com\u002Frelakkes\" target=\"_blank\">\n\u003Cimg src=\"docs\u002Fstatic\u002Fimages\u002Fbmc_button.png\" width=\"250\" alt=\"Buy Me a Coffee\">\n\u003C\u002Fa>\u003Cbr>\n\u003Cb>Buy Me a Coffee\u003C\u002Fb>\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n---\n\n## 📚 其他\n- **常见问题**：[MediaCrawler 完整文档](https:\u002F\u002Fnanmicoder.github.io\u002FMediaCrawler\u002F)\n- **爬虫入门教程**：[CrawlerTutorial 免费教程](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FCrawlerTutorial)\n- **新闻爬虫开源项目**：[NewsCrawlerCollection](https:\u002F\u002Fgithub.com\u002FNanmiCoder\u002FNewsCrawlerCollection)\n\n\n## ⭐ Star 趋势图\n\n如果这个项目对您有帮助，请给个 ⭐ Star 支持一下，让更多的人看到 MediaCrawler！\n\n[![Star History Chart](https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=NanmiCoder\u002FMediaCrawler&type=Date)](https:\u002F\u002Fstar-history.com\u002F#NanmiCoder\u002FMediaCrawler&Date)\n\n\n## 📚 参考\n\n- **小红书签名仓库**：[Cloxl 的 xhs 签名仓库](https:\u002F\u002Fgithub.com\u002FCloxl\u002Fxhshow)\n- **小红书客户端**：[ReaJason 的 xhs 仓库](https:\u002F\u002Fgithub.com\u002FReaJason\u002Fxhs)\n- **短信转发**：[SmsForwarder 参考仓库](https:\u002F\u002Fgithub.com\u002Fpppscn\u002FSmsForwarder)\n- **内网穿透工具**：[ngrok 官方文档](https:\u002F\u002Fngrok.com\u002Fdocs\u002F)\n\n\n# 免责声明\n\u003Cdiv id=\"disclaimer\"> \n\n## 1. 项目目的与性质\n本项目（以下简称“本项目”）是作为一个技术研究与学习工具而创建的，旨在探索和学习网络数据采集技术。本项目专注于自媒体平台的数据爬取技术研究，旨在提供给学习者和研究者作为技术交流之用。\n\n## 2. 法律合规性声明\n本项目开发者（以下简称“开发者”）郑重提醒用户在下载、安装和使用本项目时，严格遵守中华人民共和国相关法律法规，包括但不限于《中华人民共和国网络安全法》、《中华人民共和国反间谍法》等所有适用的国家法律和政策。用户应自行承担一切因使用本项目而可能引起的法律责任。\n\n## 3. 使用目的限制\n本项目严禁用于任何非法目的或非学习、非研究的商业行为。本项目不得用于任何形式的非法侵入他人计算机系统，不得用于任何侵犯他人知识产权或其他合法权益的行为。用户应保证其使用本项目的目的纯属个人学习和技术研究，不得用于任何形式的非法活动。\n\n## 4. 免责声明\n开发者已尽最大努力确保本项目的正当性及安全性，但不对用户使用本项目可能引起的任何形式的直接或间接损失承担责任。包括但不限于由于使用本项目而导致的任何数据丢失、设备损坏、法律诉讼等。\n\n## 5. 知识产权声明\n本项目的知识产权归开发者所有。本项目受到著作权法和国际著作权条约以及其他知识产权法律和条约的保护。用户在遵守本声明及相关法律法规的前提下，可以下载和使用本项目。\n\n## 6. 最终解释权\n关于本项目的最终解释权归开发者所有。开发者保留随时更改或更新本免责声明的权利，恕不另行通知。\n\u003C\u002Fdiv>\n","MediaCrawler 是一个用于从多个主流自媒体平台抓取公开信息的多平台数据采集工具。它支持小红书、抖音、快手、B站、微博、贴吧和知乎等平台的数据抓取，包括笔记、视频、帖子及其评论。该项目基于 Playwright 浏览器自动化框架实现登录态保存，无需复杂的JavaScript逆向工程，从而降低了使用门槛。此外，MediaCrawler 还提供了关键词搜索、指定ID爬取、二级评论获取等功能，并支持IP代理池及生成词云图，适用于社交媒体分析、市场研究以及内容监控等多种场景。请注意，项目仅供学习与参考，禁止用于商业或非法目的。",2,"2026-06-11 02:39:03","top_all"]