[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-80097":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":8,"htmlUrl":8,"language":9,"languages":8,"totalLinesOfCode":8,"stars":10,"forks":11,"watchers":12,"openIssues":13,"contributorsCount":14,"subscribersCount":14,"size":14,"stars1d":15,"stars7d":16,"stars30d":17,"stars90d":14,"forks30d":14,"starsTrendScore":18,"compositeScore":19,"rankGlobal":8,"rankLanguage":8,"license":20,"archived":21,"fork":21,"defaultBranch":22,"hasWiki":23,"hasPages":21,"topics":24,"createdAt":8,"pushedAt":8,"updatedAt":25,"readmeContent":26,"aiSummary":27,"trendingCount":14,"starSnapshotCount":14,"syncStatus":28,"lastSyncTime":29,"discoverSource":30},80097,"awesome_proofreading_auto","qqfly1to19\u002Fawesome_proofreading_auto","qqfly1to19",null,"Python",136,24,57,1,0,3,23,76,13,4.19,"Other",false,"main",true,[],"2026-06-12 02:03:58","\u003Cdiv align=\"center\">\n\n# Awesome Proofreading Auto\n\n**AI 驱动的中文医学文档智能审稿系统**\n\n[![License: CC BY-NC-SA 4.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-CC%20BY--NC--SA%204.0-lightgrey.svg)](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F)\n[![Claude Code](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FClaude%20Code-supported-blueviolet)](https:\u002F\u002Fclaude.ai\u002Fcode)\n[![Codex CLI](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenAI%20Codex-supported-412991)](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fcodex)\n[![OpenClaw](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenClaw-supported-orange)](https:\u002F\u002Fgithub.com\u002Fopen-claw\u002Fopen-claw)\n[![Python 3.8+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.8%2B-green)](https:\u002F\u002Fwww.python.org\u002F)\n\n[功能特性](#-功能特性) · [快速开始](#-快速开始) · [使用指南](#-使用指南) · [架构设计](#-架构设计) · [迁移到其他领域](#-迁移到其他领域)\n\n\u003C\u002Fdiv>\n\n---\n\n## 写在前面\n\n这个项目最初是给我媳妇做的一套审稿辅助工具。她是医学编辑，每天要审大量的医学稿件，而传统的审稿方式需要逐字逐句地检查术语、数据、格式、逻辑，工作量巨大且容易遗漏。\n\n于是我想：能不能让 AI 来帮她做这些重复性的检查工作？让 AI 负责基础审校，她只需要审核 AI 标记出来的问题，把精力集中在内容质量的判断上。\n\n这就是 **Awesome Proofreading Auto** 的由来 —— 一个专门为中文医学文档设计的智能审稿系统，支持多种 AI Agent 平台运行。\n\n> **Token 消耗提醒**：本系统采用\"分项检查 + 通读精读结合\"的策略，会对文档进行多轮、多维度、多 Agent 并行审校。一次完整的审稿流程会消耗**大量 Token**（视文档长度和模式而定），请确保你有充足的 API 额度。\n\n## 背景\n\n医学文档的审稿工作涉及多个专业维度：术语规范（卫健委 42,217 条标准术语）、临床逻辑一致性、数据准确性、参考文献格式（GB\u002FT 7714-2025）、表格图片校验等。人工逐一检查耗时且易错，而通用的 AI 校对工具缺乏医学领域的专业知识和标准支撑。\n\n本项目通过 **10 个专项审校技能** + **国家卫健委术语知识库** + **多 Agent 并行架构**，实现了覆盖全面的自动化审稿流程，并生成交互式 HTML 报告供人工最终审核。\n\n## 功能特性\n\n### 10 项专项审校技能\n\n| # | 技能 | 校验内容 | 亮点 |\n|---|------|---------|------|\n| 1 | **语言组织校对** | 语法、标点、数字用法、单位、逻辑连贯性 | 8 大类别全覆盖 |\n| 2 | **医学术语校对** | 卫健委标准术语合规性 | 42,217 条 NHC 标准术语实时查询 |\n| 3 | **临床逻辑校对** | 诊断-症状-检验-治疗的逻辑一致性 | 跨段落推理验证 |\n| 4 | **数据一致性校对** | 检验值、参考范围、指标关联 | 132 项检验值知识库 |\n| 5 | **表格校对** | 编号、表头、数据准确性、跨页表格 | 双策略 PDF 表格提取 |\n| 6 | **图片校对** | 编号、图注、图片质量、标注完整性 | 自动图片提取与匹配 |\n| 7 | **参考文献校对** | GB\u002FT 7714-2025 标准、DOI 验证 | 格式+内容双重校验 |\n| 8 | **翻译校对** | 术语翻译准确性、英文缩写规范 | 中英双语对照检查 |\n| 9 | **术语一致性校对** | 全文术语统一、缩写首次定义 | 跨章节一致性追踪 |\n| 10 | **表达润色** | 用词精准度、冗余、搭配优化 | 不改变原意的润色建议 |\n\n### 核心能力\n\n- **卫健委术语知识库**：内置 42,217 条国家卫健委标准化临床术语，支持别名 → 标准名映射\n- **检验值参考库**：132 项常见检验指标的正常范围，自动校验数据合理性\n- **医学缩写库**：190+ 医学缩写的中英文对照\n- **交互式 HTML 报告**：点击标记 ↔ 错误详情双向联动，支持表格\u002F图片\u002F流程图渲染\n- **断点续审**：每 20 分钟自动保存进度，崩溃后可恢复\n- **多格式支持**：`.docx`、`.doc`、`.pdf`、`.txt`、`.md`\n\n## 快速开始\n\n### 支持的 Agent 平台\n\n本 Skill 采用标准的 Markdown 技能定义格式，理论上支持所有具备 Agent 调度能力的 AI 编码工具：\n\n| 平台 | 状态 | 安装方式 |\n|------|------|---------|\n| [Claude Code](https:\u002F\u002Fclaude.ai\u002Fcode) | 已验证 | 将 `proofread\u002F` 复制到 `.claude\u002Fskills\u002F` |\n| [OpenAI Codex CLI](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fcodex) | 理论支持 | 将 `proofread\u002F` 复制到 `.codex\u002Fskills\u002F` |\n| [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopen-claw\u002Fopen-claw) | 理论支持 | 将 `proofread\u002F` 复制到对应 skills 目录 |\n| 其他支持 Skill\u002FAgent 的平台 | 需适配 | 技能定义为纯 Markdown，适配成本低 |\n\n> 本项目的 Skill 定义完全采用 Markdown + JSON 格式，不依赖任何特定 Agent 平台的私有 API，因此具备良好的跨平台兼容性。\n\n### 前置条件\n\n- 一个支持 Agent 调度的 AI 编码工具（推荐 [Claude Code](https:\u002F\u002Fclaude.ai\u002Fcode)）\n- Python 3.8+ 环境\n- 以下 Python 依赖：\n\n```bash\npip install pymupdf pdfplumber python-docx\n```\n\n### 安装\n\n1. 克隆仓库到本地：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fyour-username\u002Fawesome_proofreading_auto.git\ncd awesome_proofreading_auto\n```\n\n2. 将 skill 目录安装到你的 Agent 平台：\n\n**Claude Code：**\n```bash\nmkdir -p .claude\u002Fskills\ncp -r proofread .claude\u002Fskills\u002Fproofread\n```\n\n**OpenAI Codex CLI：**\n```bash\nmkdir -p .codex\u002Fskills\ncp -r proofread .codex\u002Fskills\u002Fproofread\n```\n\n**OpenClaw \u002F 其他平台：**\n将 `proofread\u002F` 复制到对应平台的 skills 目录即可。如果平台支持直接在项目目录加载技能，也可以不做任何复制，直接在 `awesome_proofreading_auto` 目录下启动。\n\n3. 确保依赖已安装：\n\n```bash\npip install pymupdf pdfplumber python-docx\n```\n\n### 运行\n\n使用 `\u002Fproofread` 命令启动审稿（以 Claude Code 为例，其他平台命令格式类似）：\n\n```\n# 基本用法\n\u002Fproofread data\u002Fyour_document.docx\n\n# 指定布局模式（单栏\u002F双栏）\n\u002Fproofread data\u002Farticle.pdf --layout=double\n\n# 指定审稿模式\n\u002Fproofread data\u002Fbook.pdf --layout=single --mode=hard\n```\n\n审稿完成后会自动在浏览器中打开交互式 HTML 报告。\n\n## 使用指南\n\n### 布局模式\n\n| 参数 | 说明 | 适用场景 |\n|------|------|---------|\n| `--layout=single` | 单栏布局 | Word 导出 PDF、普通文档 |\n| `--layout=double` | 双栏布局 | 学术期刊、教科书双栏排版 |\n\n如果未指定布局，系统会询问你。双栏模式会自动检测每页栏数，按左栏 → 右栏顺序提取文本。\n\n### 审稿模式\n\n通过 `--mode` 参数控制每个 Agent 处理的技能数量：\n\n| 模式 | Agent 数量 | 速度 | 质量 | 适用场景 |\n|------|-----------|------|------|---------|\n| `hard` | chunks × 10 | 最慢 | 最高 | 重要文档、最终出版 |\n| `medium`（默认） | chunks × 4 | 中等 | 较高 | 常规审稿 |\n| `easy` | chunks × 1 | 最快 | 一般 | 快速初筛、草稿审查 |\n\n`medium` 模式下 10 个技能按职责分组为 4 组并行执行：\n\n- **组 A（文本层面）**：语言组织 + 表达润色\n- **组 B（术语层面）**：医学术语 + 术语一致性 + 翻译\n- **组 C（医学层面）**：临床逻辑 + 数据一致性\n- **组 D（文档元素）**：参考文献 + 表格 + 图片\n\n### 使用小技巧\n\n#### 1. PDF 表格处理\n\nPDF 中的表格提取采用双策略（PyMuPDF + pdfplumber），大部分表格可自动提取。如果自动提取效果不理想：\n\n- 系统会自动截取表格区域截图，并尝试 AI 视觉识别重建\n- 对于极其复杂的表格，可能需要手动辅助\n- 运行后检查终端输出的 `Total: N tables` 确认提取数量\n\n#### 2. 大文档分块策略\n\n系统自动将文档按 40 段落一块、10 段落重叠进行分块。重叠区域确保跨段落的错误不会被遗漏。\n\n#### 3. Token 消耗优化\n\n- **初筛用 `easy` 模式**：快速获取文档整体质量概况\n- **重点章节用 `hard` 模式**：对需要重点审核的章节单独处理\n- **利用断点续审**：中断后可从进度文件恢复，不浪费已完成的审校结果\n\n#### 4. 报告解读\n\nHTML 报告中的错误按三级严重度标记：\n\n| 级别 | 颜色 | 含义 | 建议 |\n|------|------|------|------|\n| Critical（严重） | 红色 | 可能导致理解偏差或临床误判 | 必须修改 |\n| Major（重要） | 橙色 | 影响准确性或一致性 | 建议修改 |\n| Minor（轻微） | 蓝色 | 格式、表述等小问题 | 可选修改 |\n\n#### 5. NHC 术语查询\n\n可独立使用术语查询工具验证术语规范性：\n\n```bash\npython .claude\u002Fskills\u002Fproofread\u002Fscripts\u002Flookup_term.py 心房颤动          # 精确查询\npython .claude\u002Fskills\u002Fproofread\u002Fscripts\u002Flookup_term.py 心房颤动 --all   # 模糊匹配\npython .claude\u002Fskills\u002Fproofread\u002Fscripts\u002Flookup_term.py --chapter 心血管   # 按科室查询\npython .claude\u002Fskills\u002Fproofread\u002Fscripts\u002Flookup_term.py --stats            # 统计信息\n```\n\n## 架构设计\n\n### 整体架构\n\n```\n┌──────────────────────────────────────────────────────┐\n│                   SKILL.md (主控)                      │\n│              \u002Fproofread 命令触发入口                    │\n└──────────────┬───────────────────────────────────────┘\n               │\n    ┌──────────▼──────────┐\n    │    文档提取层         │\n    │  PDF \u002F DOCX \u002F TXT    │\n    │  表格 \u002F 图片 \u002F 图形    │\n    └──────────┬──────────┘\n               │\n    ┌──────────▼──────────┐\n    │    智能分块层         │\n    │  40段\u002F块, 10段重叠    │\n    │  awk 稳定分块         │\n    └──────────┬──────────┘\n               │\n    ┌──────────▼──────────┐\n    │   并行 Agent 调度层    │\n    │  3 Agent 并行         │\n    │  即时补位策略          │\n    │  进度持久化            │\n    └──────────┬──────────┘\n               │\n    ┌──────────▼──────────┐\n    │   结果合并 + 报告生成   │\n    │  JSON 容错解析         │\n    │  错误-段落智能匹配     │\n    │  交互式 HTML 报告      │\n    └──────────────────────┘\n```\n\n### 目录结构\n\n```\n.claude\u002Fskills\u002Fproofread\u002F\n├── SKILL.md                           # 主 Skill 定义（命令入口 + 执行流程）\n├── assets\u002F\n│   └── report_template.html           # HTML 报告模板\n├── references\u002F\n│   ├── knowledge_base\u002F                # 知识库\n│   │   ├── abbreviations.json         # 190+ 医学缩写\n│   │   ├── lab_values.json            # 132+ 检验值参考范围\n│   │   ├── medical_terms.json         # 126+ 医学术语\n│   │   └── nhc_clinical_terms.json    # 42,217 条 NHC 标准术语\n│   └── skills\u002F                        # 10 个专项审校技能\n│       ├── _base_output_format.md     # 统一 JSON 输出规范\n│       ├── language_proofreading\u002F\n│       │   ├── skill.md               # 技能定义（规则 + schema）\n│       │   └── checklist.md           # 检查清单\n│       ├── medical_term_proofreading\u002F\n│       ├── clinical_logic_proofreading\u002F\n│       ├── data_consistency_proofreading\u002F\n│       ├── table_proofreading\u002F\n│       ├── image_proofreading\u002F\n│       ├── reference_proofreading\u002F\n│       ├── translation_proofreading\u002F\n│       ├── consistency_proofreading\u002F\n│       └── expression_refinement\u002F\n└── scripts\u002F\n    ├── lookup_term.py                 # NHC 术语查询工具\n    └── parse_nhc_terms.py             # NHC 数据解析工具\n```\n\n### 技能架构\n\n每个审校技能由两个文件组成：\n\n- **`skill.md`**：定义校对规则、输出 JSON schema、扩展字段\n- **`checklist.md`**：结构化检查清单，Agent 逐项执行\n\n所有技能遵循统一的输出格式（`_base_output_format.md`），包含标准化的严重度分级（critical \u002F major \u002F minor）和字段命名。\n\n### 并行调度策略\n\n```\n待执行队列: [Task1, Task2, Task3, Task4, Task5, ...]\n\nAgent 1: Task1 ████████ 完成 → 立即启动 Task4\nAgent 2: Task2 ████████████ 完成 → 立即启动 Task5\nAgent 3: Task3 ██████ 完成 → 立即启动 Task6\n\n始终保持恰好 3 个 Agent 并行运行\n任何 Agent 完成（成功或失败）后立即补位\n```\n\n关键设计决策：\n\n- **即时补位**：不等同批其他 Agent 完成，完成一个立即启动下一个\n- **上下文保护**：主 Agent 不读取大文件，所有文件操作通过子 Agent 或 Bash 完成\n- **状态持久化**：每 20 分钟自动保存进度到 `_progress.json`，支持崩溃恢复\n- **容错 JSON 解析**：三级策略处理 Agent 输出的畸形 JSON\n\n### 输出结构\n\n```\noutput_{docname}\u002F\n├── _document_text.txt                 # 带编号的文档原文\n├── _tables.json                       # 表格结构 + Markdown\n├── _images.json                       # 图片元信息\n├── _graphics.json                     # 图形内容处理结果\n├── chunks\u002F                            # 分段中间文件\n│   ├── _chunk_{N}.txt                 #   分段文本\n│   └── *_chunk{N}.json                #   Agent 输出结果\n├── results\u002F                           # 合并后的最终结果\n│   ├── language_proofreading.json\n│   ├── medical_term_proofreading.json\n│   └── ...（共 10 个）\n├── images\u002F                            # 提取的图片 + 表格截图\n└── {docname}.html                     # 最终 HTML 审稿报告\n```\n\n## 迁移到其他领域\n\n本系统的架构设计是**领域无关**的，审校逻辑完全由 `references\u002Fskills\u002F` 下的技能定义驱动。迁移到其他领域只需修改技能和知识库，不需要改动调度框架。\n\n### 迁移步骤\n\n#### 1. 替换知识库（`references\u002Fknowledge_base\u002F`）\n\n根据目标领域准备专业知识库 JSON 文件。例如迁移到**法律文档审校**：\n\n```json\n\u002F\u002F law_terms.json\n{\n  \"民法典\": {\n    \"standard_name\": \"中华人民共和国民法典\",\n    \"abbreviation\": \"民法典\",\n    \"category\": \"法律名称\"\n  }\n}\n```\n\n#### 2. 修改\u002F替换技能定义（`references\u002Fskills\u002F`）\n\n每个技能由 `skill.md` + `checklist.md` 组成，定义了校对规则和输出 schema。\n\n**保留的技能**（多数领域通用）：\n- `language_proofreading` - 语言组织（语法、标点等）\n- `consistency_proofreading` - 术语一致性\n- `expression_refinement` - 表达润色\n- `reference_proofreading` - 参考文献（调整引用标准即可）\n- `table_proofreading` - 表格\n- `image_proofreading` - 图片\n\n**需要替换的技能**（领域专用）：\n- `medical_term_proofreading` → 改为领域术语校对（如 `legal_term_proofreading`）\n- `clinical_logic_proofreading` → 改为领域逻辑校对（如 `legal_logic_proofreading`）\n- `data_consistency_proofreading` → 改为领域数据校对（如 `legal_citation_proofreading`）\n- `translation_proofreading` → 按需保留或替换\n\n#### 3. 编写技能定义\n\n每个技能的 `skill.md` 需要包含：\n\n```markdown\n# 技能名称\n\n## 校对范围\n定义本技能负责检查的内容范围\n\n## 校对规则\n- 规则1：...\n- 规则2：...\n\n## 输出格式\n遵循 _base_output_format.md 的标准 JSON schema\n```\n\n#### 4. 更新查询脚本（`scripts\u002F`）\n\n将 `lookup_term.py` 中的数据源替换为目标领域的术语库。\n\n#### 5. 调整 SKILL.md 中的技能列表\n\n在 SKILL.md 的技能列表部分更新为新技能。\n\n### 迁移示例\n\n| 目标领域 | 可复用技能 | 需新建\u002F替换技能 | 知识库 |\n|---------|-----------|---------------|--------|\n| **法律文档** | 语言、一致性、润色、参考文献、表格、图片 | 法律术语、法条逻辑、案例引用 | 法律术语库、法条库 |\n| **学术论文** | 语言、一致性、润色、参考文献、表格、图片 | 学术术语、实验逻辑、数据一致性 | 学科术语库 |\n| **技术文档** | 语言、一致性、润色、表格、图片 | 技术术语、代码逻辑、API 一致性 | 技术术语库、API 规范 |\n| **教育教材** | 语言、一致性、润色、参考文献、表格、图片 | 学科术语、知识点逻辑、题目准确性 | 学科知识库 |\n\n## 声明\n\n### 许可证\n\n本项目采用 **[CC BY-NC-SA 4.0](https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby-nc-sa\u002F4.0\u002F)** 许可证。\n\n```\n本作品仅供个人学习和交流使用，严禁用于任何商业用途。\n未经授权的商业使用将追究法律责任。\n```\n\n### 免责声明\n\n- 本系统是**辅助审稿工具**，所有标记的问题均需人工最终审核确认\n- AI 审校结果可能存在误报或遗漏，不保证 100% 准确\n- 对于医学文档中的临床决策相关内容，请务必以专业医学人员审核为准\n- 本系统不对因使用或误用产生的任何损失承担责任\n\n## 致谢\n\n- [Claude Code](https:\u002F\u002Fclaude.ai\u002Fcode)、[OpenAI Codex](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fcodex)、[OpenClaw](https:\u002F\u002Fgithub.com\u002Fopen-claw\u002Fopen-claw) 等 AI Agent 平台\n- 国家卫健委 - 提供标准化临床术语数据\n- 所有为医学出版质量默默付出的编辑们\n\n---\n\n\u003Cdiv align=\"center\">\n\n### 关注我们\n\n了解更多 AI + 效率工具的内容，欢迎关注抖音账号\n\n**抖音：乌卡 AI 笔记**（抖音号：37892085442）\n\n大模型算法专家 \u002F 大厂 AI 负责人，分享 AI 实战经验与效率工具\n\n\u003Cimg src=\"assets\u002Fdouyin_qrcode.jpg\" alt=\"乌卡 AI 笔记\" width=\"200\" \u002F>\n\n**如果这个项目对你有帮助，请给个 Star ⭐**\n\n\u003C\u002Fdiv>\n","Awesome Proofreading Auto 是一个AI驱动的中文医学文档智能审稿系统。它具备10项专项审校技能，包括语言组织、医学术语、临床逻辑、数据一致性等，并内置了国家卫健委42,217条标准术语和132项检验值参考库，确保审稿的全面性和准确性。该系统支持多种AI Agent平台运行，能够生成交互式HTML报告，方便人工最终审核。适用于医学编辑在处理大量医学稿件时提高效率和质量，减少重复性检查工作。",2,"2026-06-11 03:59:14","CREATED_QUERY"]