[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-1552":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":14,"subscribersCount":14,"size":14,"stars1d":15,"stars7d":16,"stars30d":17,"stars90d":14,"forks30d":14,"starsTrendScore":18,"compositeScore":19,"rankGlobal":9,"rankLanguage":9,"license":9,"archived":20,"fork":20,"defaultBranch":21,"hasWiki":22,"hasPages":22,"topics":23,"createdAt":9,"pushedAt":9,"updatedAt":24,"readmeContent":25,"aiSummary":26,"trendingCount":14,"starSnapshotCount":14,"syncStatus":27,"lastSyncTime":28,"discoverSource":29},1552,"geo-citation-lab","yaojingang\u002Fgeo-citation-lab","yaojingang","GEO experiment data reports and a curated GEO\u002FAEO\u002FAI search paper library.",null,"Python",309,52,199,0,1,11,94,3,5.17,false,"main",true,[],"2026-06-12 02:00:29","# Overseas GEO Research\n\n一套面向 `ChatGPT`、`Google AI Overview \u002F Gemini`、`Perplexity` 的 GEO 研究资料库，用来回答三个实际问题：\n\n- 什么样的问题最容易触发 AI 去联网搜索？\n- AI 搜索最爱选什么样的来源网站？\n- 什么样的页面会被 AI 深度吸收，而不只是“挂名引用”？\n\n这份仓库不是泛泛而谈的 GEO 观点集，而是一份基于真实问答、真实引用、真实页面抓取结果做出来的研究快照。\n\n## Start Here\n\n作者与贡献：\n\n- 张凯：提出研究想法与需求，定义分析目标与相关规则；微信号：`seermartech`\n- 贺欣悦：负责源代码实现、数据采集与清洗、初稿撰写；清华大学本科，清华大学与华盛顿大学 `GIX` 项目的双学位硕士生；GitHub 主页：[shirley-goose](https:\u002F\u002Fgithub.com\u002Fshirley-goose)\n- 姚金刚：负责开源整理、二次报告解读与应用场景梳理；Live Site：[https:\u002F\u002Fyaojingang.github.io\u002Fgeo-citation-lab\u002F](https:\u002F\u002Fyaojingang.github.io\u002Fgeo-citation-lab\u002F)\n\n仓库首页建议先从这五个入口进入：\n\n| 入口 | 文件 | 适合谁 |\n| --- | --- | --- |\n| 长版 HTML 报告 | [04-repet\u002Ffinal_report.html](.\u002F04-repet\u002Ffinal_report.html) | 想快速浏览完整内容、适合本地或浏览器阅读 |\n| 长版 Markdown 报告 | [04-repet\u002Ffinal_report.md](.\u002F04-repet\u002Ffinal_report.md) | 想在 GitHub 里直接按章节阅读正文 |\n| PDF 版报告 | [04-repet\u002Ffinal_report.pdf](.\u002F04-repet\u002Ffinal_report.pdf) | 想下载、分享或打印 |\n| 3 分钟摘要 | [QUICK_REPORT.md](.\u002FQUICK_REPORT.md) | 想先快速判断这份研究讲了什么，再决定是否进入长版 |\n| arXiv 论文 | [Abstract](https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.25707) \u002F [PDF Paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2604.25707) | 想直接查看论文原文、引用学术版本或下载论文 PDF |\n\n## Snapshot\n\n| 项目 | 数字 |\n| --- | ---: |\n| 设计 Prompt 总数 | 602 |\n| A\u002FB\u002FC\u002FD 四层实验 | 432 \u002F 60 \u002F 60 \u002F 50 |\n| 平台数量 | 3 |\n| 搜索层原始结果行数（清洗后） | 21,181 |\n| 搜索层有效引用行数 | 21,143 |\n| 引用影响力特征行数 | 23,745 |\n| 特征维度 | 72 |\n| 成功抓取的引用页面 | 18,151 |\n| 抓取成功率 | 76.44% |\n\n## 为什么这份仓库值得看\n\n- 它同时研究了“触发搜索”和“引用吸收”两条链路，而不只是统计谁被引用了多少次。\n- 它把 GEO 拆成了可验证变量：Prompt 设计、站点权威度、页面结构、语义对齐、内容类型、平台差异。\n- 它保留了原始 Prompt、原始 CSV、处理脚本、完整报告、可视化 PDF，可以直接复查每个结论的来源。\n\n## 研究逻辑\n\n```mermaid\nflowchart LR\n    A[\"602 条 Prompt\"] --> B[\"3 个 AI 搜索平台\"]\n    B --> C[\"搜索触发 + 引用来源数据\"]\n    C --> D[\"21,143 条搜索层引用记录\"]\n    D --> E[\"统一抓取引用网页\"]\n    E --> F[\"18,151 个成功抓取页面\"]\n    F --> G[\"23,745 条 citation-level 记录\"]\n    G --> H[\"72 维特征表\"]\n    H --> I[\"触发机制 \u002F 信源偏好 \u002F 影响力分析\"]\n```\n\n这套实验的核心设计分成四层：\n\n- `A 层`：432 条主实验 Prompt，系统控制任务类型、触发强度、时效性、行业与子任务。\n- `B 层`：60 条风格对照 Prompt，比较自然问法、要求来源、专家角色三种包装方式。\n- `C 层`：60 条中英双语对照 Prompt，观察不同语言环境下的搜索强度与信源偏好。\n- `D 层`：50 条极端与真实场景 Prompt，覆盖高风险、模糊、多约束和长决策型问题。\n\n## 平台差异，先看结论\n\n| 平台 | 搜索触发率 | 平均每条 Prompt 引用数 | 单条引用平均影响力 |\n| --- | ---: | ---: | ---: |\n| ChatGPT | 98.64%（579 \u002F 587） | 6.88 | 0.2567 |\n| Google | 99.67%（600 \u002F 602） | 12.06 | 0.0455 |\n| Perplexity | 100.00%（602 \u002F 602） | 16.35 | 0.0548 |\n\n这张表基本定义了三家的策略：\n\n- `ChatGPT` 引用更少，但单条引用被用得更深。\n- `Google` 引用更广，尤其吃“带来源要求”的查询。\n- `Perplexity` 最激进，覆盖面最大，更像“广撒网式”信息汇总器。\n\n## 核心发现\n\n- 三个平台几乎都会触发搜索，但触发之后的“引用宽度”差距很大：`6.88 vs 12.06 vs 16.35`。\n- 搜索广度不等于引用深度：ChatGPT 的单条引用平均影响力是 Google 的 `5.64x`，是 Perplexity 的 `4.68x`。\n- 在 `B 层` 风格实验里，要求来源的 Prompt 平均引用数最高，整体达到 `13.07`，高于自然提问的 `12.35`。\n- 在 `C 层` 语言实验里，英文 Prompt 整体平均引用数为 `11.68`，高于中文 Prompt 的 `10.41`；Google 上差异更大，`11.57 vs 7.53`。\n- 在 `D 层` 场景实验里，模糊问题的平均引用数最低，仅 `9.97`；长决策型问题达到 `13.70`。\n- 三个平台引用的网站中，`官网 + 新闻 + 行业垂类` 占比达到 `79.12% - 87.52%`。\n- 在可识别国家中，`US` 来源占比达到 `82.70% - 86.76%`；在可识别语言中，英文来源占比达到 `82.90% - 95.07%`。\n- 被引用来源的中位 `Final_DR` 落在 `526 - 592`，说明高权威域名依旧显著占优。\n- 影响力 Top 四分位页面平均 `1,943` 词，Bottom 四分位仅 `170` 词，长度差达到 `11.4x`。\n- Top 四分位页面平均 `10.59` 个标题、`47.49` 个段落，显著高于 Bottom 四分位的 `0.85` 和 `8.34`。\n- 影响力最强的独立预测因子是语义相关性：`llm_relevance_score` 与影响力相关系数 `r = 0.432`。\n- 含数字、定义、对比、步骤的页面显著更强：平均影响力提升分别为 `+61.6%`、`+57.3%`、`+55.3%`、`+41.2%`。\n- 纯问答格式并没有帮助，`Q&A` 页面平均影响力反而比非 Q&A 页面低 `5.7%`。\n\n普通用户可以先看 [QUICK_REPORT.md](.\u002FQUICK_REPORT.md)，想看完整论证再读 [04-repet\u002Ffinal_report.md](.\u002F04-repet\u002Ffinal_report.md) 或 [05-kami-report\u002Fkami_geo_research_summary_report.pdf](.\u002F05-kami-report\u002Fkami_geo_research_summary_report.pdf)。\n\n## 仓库结构\n\n| 路径 | 作用 |\n| --- | --- |\n| [`01-prompt\u002F`](.\u002F01-prompt\u002F) | 602 条实验 Prompt |\n| [`02-data\u002F`](.\u002F02-data\u002F) | 搜索层 CSV 与 72 维特征 CSV |\n| [`03-pipeline\u002F`](.\u002F03-pipeline\u002F) | 解析、抓取、特征提取、分析脚本 |\n| [`04-repet\u002F`](.\u002F04-repet\u002F) | 完整研究报告及图表 |\n| [`05-kami-report\u002F`](.\u002F05-kami-report\u002F) | 更适合展示\u002F分享的摘要 PDF |\n| [`QUICK_REPORT.md`](.\u002FQUICK_REPORT.md) | 给普通用户的 3 分钟速读版 |\n\n## 如何阅读这份仓库\n\n如果你是第一次接触 GEO，建议按这个顺序：\n\n1. 读 [QUICK_REPORT.md](.\u002FQUICK_REPORT.md)，先拿到“这份数据到底证明了什么”。\n2. 读 [04-repet\u002Ffinal_report.md](.\u002F04-repet\u002Ffinal_report.md)，看完整方法、图表和章节论证。\n3. 打开 [`02-data\u002Ffeatures_all_platforms_72.csv`](.\u002F02-data\u002Ffeatures_all_platforms_72.csv)，直接筛你关心的字段。\n4. 再读 [`03-pipeline\u002Fcitation_features.py`](.\u002F03-pipeline\u002Fcitation_features.py) 和 [`03-pipeline\u002Fanalyze_influence.py`](.\u002F03-pipeline\u002Fanalyze_influence.py)，看这些结论是怎么生成的。\n\n## 公开仓库的运行方式\n\n本仓库已将脚本改为从环境变量读取密钥，避免把私钥直接放进 GitHub。\n\n先复制一份环境变量模板：\n\n```bash\ncp .env.example .env\n```\n\n或直接导出：\n\n```bash\nexport OPENAI_API_KEY=...\nexport GEMINI_API_KEY=...\nexport DATAFORSEO_BASE64_AUTH=...\nexport AHREFS_API_KEY=...\nexport BATCH_API_TOKEN=...\nexport BATCH_API_BASE_URL=http:\u002F\u002F188.166.211.11:9000\n```\n\n常见重跑方式：\n\n```bash\ncd 03-pipeline\npython3 analyze_influence.py \\\n  --input ..\u002F02-data\u002Ffeatures_all_platforms_72.csv \\\n  --output ..\u002F04-repet\u002Fcitation_influence_report.md\n```\n\n```bash\ncd 04-repet\npython3 build_self_contained_html.py\n```\n\n## 数据说明与已知 caveats\n\n- `chatgpt_results_with_prompt.csv` 原始文件中混入了 `16` 行重复表头，统计时需要先清洗。\n- ChatGPT 搜索层的 `A_news`、`A_technology` 在原始文件里命名为 `Anews*`、`Atechnology*`，需要先做命名归一化。\n- ChatGPT 搜索层清洗后覆盖 `587` 个 Prompt，仍缺 `15` 个 Prompt 输出。\n- `国家(Country)` 和 `语言(Language)` 中存在大量 `unknown` 或 `WW`，因此地区\u002F语言占比最好同时给出“可识别样本口径”。\n- `网站类型` 字段里存在少量噪声值，例如 `成功`，这类值更适合在公开版里再做一次标准化。\n- 仓库当前没有给每条记录附统一采集时间戳；它更适合作为一次“静态研究快照”来理解，而不是实时监控数据源。\n\n## 适合哪些人\n\n- 想理解 GEO 底层逻辑的内容策略、SEO、品牌投放人员\n- 想研究 AI 搜索引用机制的分析师或研究者\n- 想基于真实数据做二次分析、二次可视化或公开展示的开发者\n\n## 相关文档\n\n- [QUICK_REPORT.md](.\u002FQUICK_REPORT.md)\n- [04-repet\u002Ffinal_report.md](.\u002F04-repet\u002Ffinal_report.md)\n- [04-repet\u002Ffinal_report.pdf](.\u002F04-repet\u002Ffinal_report.pdf)\n- [05-kami-report\u002Fkami_geo_research_summary_report.pdf](.\u002F05-kami-report\u002Fkami_geo_research_summary_report.pdf)\n","该项目旨在通过数据集和分析管道研究AI搜索引擎如何选择和使用引用。其核心功能包括设计Prompt、收集搜索结果、抓取引用网页并分析引用特征，以回答关于AI搜索行为的关键问题。技术上，项目采用Python语言实现，并提供多种格式的报告供不同需求者阅读。适用于需要深入了解AI搜索引擎工作原理的研究人员、开发者以及对信息检索感兴趣的用户。",2,"2026-06-11 02:44:36","CREATED_QUERY"]