[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-79986":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":16,"stars7d":17,"stars30d":18,"stars90d":15,"forks30d":15,"starsTrendScore":19,"compositeScore":20,"rankGlobal":9,"rankLanguage":9,"license":21,"archived":22,"fork":22,"defaultBranch":23,"hasWiki":24,"hasPages":22,"topics":25,"createdAt":9,"pushedAt":9,"updatedAt":36,"readmeContent":37,"aiSummary":38,"trendingCount":15,"starSnapshotCount":15,"syncStatus":39,"lastSyncTime":40,"discoverSource":41},79986,"image-to-editable-ppt-skill","ningzimu\u002Fimage-to-editable-ppt-skill","ningzimu","Codex skill for converting slide images, PDFs, and image-based PPTX files into editable PowerPoint decks.",null,"Python",428,22,72,1,0,34,187,337,162,4.09,"MIT License",false,"main",true,[26,27,28,29,30,31,32,33,34,35],"codex","codex-skill","editable-ppt","image-to-ppt","imagegen","multi-agent","pdf-to-pptx","powerpoint","pptx","presentation","2026-06-12 02:03:56","# Image to Editable PPT Skill\n\n[![English](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-English-blue)](README_en.md) [![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fningzimu\u002Fimage-to-editable-ppt-skill?style=flat&logo=github&label=stars)](https:\u002F\u002Fgithub.com\u002Fningzimu\u002Fimage-to-editable-ppt-skill\u002Fstargazers) [![GitHub forks](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fforks\u002Fningzimu\u002Fimage-to-editable-ppt-skill?style=flat&logo=github&label=forks)](https:\u002F\u002Fgithub.com\u002Fningzimu\u002Fimage-to-editable-ppt-skill\u002Fforks)\n\n![Image to Editable PPT 项目概览](assets\u002Fimage-to-editable-ppt-overview.png)\n\n一个面向 Codex 的图片、PDF、图片版PPT 转可编辑 PowerPoint 的 skill。它先把输入归一化为逐页任务，再由 page subagent 重建为 `.pptx`：可读文字尽量恢复为原生文本框，简单几何尽量恢复为 PowerPoint 形状，复杂视觉元素保留为带来源记录的独立图片资产。\n\n它适合把截图式或图片式幻灯片变成更容易二次编辑的 PPT，让文字、简单形状和视觉素材尽量分开调整。\n\n> [!TIP]\n> 本 skill 不负责从文章、报告、大纲或想法直接生成全新 PPT。如果你要做的是“生成一份 PPT”，可以使用 [codex-ppt-skill](https:\u002F\u002Fgithub.com\u002Fningzimu\u002Fcodex-ppt-skill)。\n>\n> 关于 `codex-ppt` 和 `image-to-editable-ppt` 这两个技能的详细介绍，参见 [skill_duo_intro.pdf](assets\u002Fskill_duo_intro.pdf)。该 PPT 由 `codex-ppt` skill 生成，提示词为：“请分别阅读 Codex PPT和 Image to Editable PPT 这两个技能的内容，然后用 Codex PPT 帮我做一个PPT吧，20页，每个技能的介绍10页。”\n\n## 转换效果示例\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>原图\u003C\u002Fth>\n    \u003Cth>转换后可编辑效果\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"assets\u002Fshowcase-origin-market-snapshot.png\" alt=\"市场概览原图\" width=\"420\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"assets\u002Fshowcase-editable-ppt-result-market-snapshot.png\" alt=\"市场概览转换后可编辑效果\" width=\"420\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"assets\u002Fshowcase-origin-status-report.png\" alt=\"项目进展汇报原图\" width=\"420\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"assets\u002Fshowcase-editable-ppt-result-status-report.png\" alt=\"项目进展汇报转换后可编辑效果\" width=\"420\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Cimg src=\"assets\u002Fshowcase-origin-mdt-kidney-cancer.jpg\" alt=\"肾癌 MDT 信息图原图\" width=\"420\">\u003C\u002Ftd>\n    \u003Ctd>\u003Cimg src=\"assets\u002Fshowcase-editable-ppt-result-mdt-kidney-cancer.png\" alt=\"肾癌 MDT 信息图转换后可编辑效果\" width=\"420\">\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## 特点\n\n- 适用场景广泛，支持多种输入：单张图片、多张图片、多页 PDF、图片版PPT 到可编辑 `.pptx`。\n- 采用多 agent 架构：Codex sub agent 并行重建每一个页面，加快多页任务的重建速度；主 agent 负责分派、质量检查、修复调度和最终组装。\n- 全面复用 Codex 现有特性，包括 sub agent 和 `$imagegen`；采用纯视觉重建方案，无需第三方 OCR 或版面分析服务依赖。\n- 多张图片按提供顺序生成页面；PDF 和 `.pptx` 保留原页码顺序。\n- `.pptx` 输入的页面备注会复制到输出对应页，备注内容不改动。\n- 根据具体页面情况决定是否通过 `$imagegen` \u002F gpt-image-2 做图片分层抽取；需要时用稀疏 asset sheet 合并前景素材，尽可能降低 gpt-image-2 调用次数。\n- 支持复杂视觉页的混合策略：可编辑文字 + 简单形状 + 独立图片资产。\n\n## 输入与输出契约\n\n输出始终是 PowerPoint `.pptx`：\n\n| 输入             | 输出                                           |\n| ---------------- | ---------------------------------------------- |\n| 1 张图片         | 1 页 `.pptx`                                 |\n| 多张图片         | 多页 `.pptx`，每张图片 1 页，按提供顺序排列  |\n| 多页 PDF         | 多页 `.pptx`，PDF 第 N 页对应输出第 N 页     |\n| 图片版PPT | 页数一致的 `.pptx`，原第 N 页对应输出第 N 页 |\n\n只有 `.pptx` 输入会处理页面备注。备注由主 agent 按页原样复制到输出 PPTX：不翻译、不摘要、不改写，也不交给 page subagent 处理。\n\n## 适用场景\n\n- 把一张或多张 slide 图片重建成可调整文字和元素位置的 PPT。\n- 把多张图片或多页 PDF 转成一个多页 `.pptx`。\n- 把图片版PPT页面转换为更容易二次编辑的 `.pptx`，并保留原页面备注。\n- 复刻单页视觉设计，同时保留文本可编辑性。\n- 对比源图与输出页面，定位缺字、错位或资产缺失。\n\n## 运行要求\n\n- Codex 需要能分派 page subagent；如果不能创建 page subagent，skill 会停止并报告 blocker。\n- 复杂背景修复、图标重绘、透明 asset sheet 和局部修复依赖 `$imagegen` \u002F built-in `image_gen`。\n\n## 已知限制\n\n- 本 skill 针对 Codex 进行深度适配，目前不支持其他 agent。\n- 本 skill 在 Codex 的会员体系（Plus \u002F Max）下测试正常，第三方 API 接入方式的兼容性未测试。\n- 受限于模型基础理解能力和对 skill 的遵循能力，不保证 gpt-5.5 以下模型的使用效果。\n- 部分图片元素和文字位置可能会有轻微偏移，不能保证 100% 复刻原始页面。\n\n## 安装\n\n推荐使用 `skills` CLI 安装到 Codex 的全局 skills 目录：\n\n```bash\nnpx -y skills@latest add ningzimu\u002Fimage-to-editable-ppt-skill \\\n  --skill image-to-editable-ppt \\\n  --agent codex \\\n  --global\n```\n\n也可以直接在 Codex 对话里输入：\n\n```text\n$skill-installer https:\u002F\u002Fgithub.com\u002Fningzimu\u002Fimage-to-editable-ppt-skill\n```\n\n也可以从 GitHub Releases 下载 `image-to-editable-ppt-skill-v*.zip`，解压后把其中的 `image-to-editable-ppt` 文件夹放到 `~\u002F.codex\u002Fskills\u002Fimage-to-editable-ppt`。\n\n安装完成后，重启 Codex 让新 skill 生效。\n\n## 使用方式\n\n在 Codex 里可以用 `$image-to-editable-ppt` 显式选中这个技能。图片、PDF 和 `.pptx` 可以直接粘贴或附加到对话框，也可以提供本地路径：\n\n```text\n$image-to-editable-ppt 把这张图片转成可编辑 PPT。\n$image-to-editable-ppt 把这些图片转成一个可编辑 PPT。\n$image-to-editable-ppt 把 \u002Fpath\u002Fto\u002Fdeck.pdf 转成可编辑 PPT。\n$image-to-editable-ppt 把 \u002Fpath\u002Fto\u002Fimage-based.pptx 转成可编辑 PPT。\n```\n\nskill 通常会完成这些步骤：\n\n1. 创建独立任务目录，并把输入归一化为 `pages\u002Fpage_NNN\u002Fsource.png`。\n2. 每一页都分配给 page subagent，包括单页输入；多页输入按 `max_concurrent_pages` 分批分派。\n3. 每页创建 manifest，重建可编辑文本、简单形状和图片资产。\n4. 用状态脚本记录 dispatch、page result、repair 和 accepted 状态。\n5. 主 agent 组装最终 `.pptx`，复制 `.pptx` 页面备注，并运行 deck validation。\n\n## 输出结构\n\n每次转换必须使用一个独立输出目录，所有中间文件和最终结果都保存在其中：\n\n```text\noutput\u002Fimage-to-editable-ppt\u002F{job-id}\u002F        # 单次转换任务目录\n├── input\u002F                                    # 原始输入文件副本\n├── deck_manifest.json                        # 整个 deck 的页面清单和输出配置\n├── page_jobs.json                            # 每页分派、修复和完成状态\n├── run_state.json                            # 当前任务的整体运行状态\n├── notes_manifest.json                       # PPTX 页面备注提取与映射记录\n├── final\u002F                                    # 最终输出目录\n│   ├── {origin}_edited.pptx                  # 最终可编辑 PPTX\n│   ├── validation.json                       # 最终 deck 校验结果\n│   └── run_summary.json                      # 本次转换摘要\n└── pages\u002F                                    # 按页拆分的重建工作区\n    ├── page_001\u002F                             # 第 1 页工作目录\n    │   ├── source.png                        # 归一化后的页面源图\n    │   ├── page_request.json                 # 分派给 page subagent 的页面请求\n    │   ├── imagegen-jobs.json                # 本页 imagegen 调用和结果记录\n    │   ├── assets\u002F                           # 本页拆出的独立图片资产\n    │   ├── page.pptx                         # 本页单页 PPTX\n    │   ├── preview.png                       # 本页重建预览图\n    │   ├── split_assets_contact.png          # 本页资产切分检查图\n    │   ├── manifest.json                     # 本页文本、形状和资产描述\n    │   ├── validation.json                   # 本页校验结果\n    │   └── page_result.json                  # 本页最终结果和限制记录\n    └── page_002\u002F                             # 后续页面工作目录\n        └── ...\n```\n\n## 边界\n\n- 这个 skill 面向输入页面的可编辑重建，不是从零生成整套 PPT 内容。\n- 每一页都必须通过 page subagent 重建；没有可用 subagent 时不会降级为主 agent 手工重建。\n- 复杂视觉资产需要 `$imagegen`；如果缺少可用图片生成\u002F编辑能力，相关页面会作为 blocker 处理。\n- 对照片、插画、纹理、手绘装饰等复杂视觉元素，通常只能作为独立图片资产移动，不能保证内部对象可编辑。\n- 对表格、图表、流程图等结构化区域，会优先保留可编辑语义，但低置信度时应保留为资产并在验证报告里说明。\n- 视觉相似不等于可编辑。最终判断应同时看 PPTX 结构、文本覆盖、资产来源和预览\u002Fdiff。\n\n## 仓库结构\n\n```text\n.\n├── .github\u002F                              # GitHub 工作流和仓库检查配置\n├── skills\u002F                               # Codex skill 安装包目录\n│   └── image-to-editable-ppt\u002F            # 可安装的 image-to-editable-ppt skill\n│       ├── SKILL.md                      # skill 入口说明和执行规则\n│       ├── requirements.txt              # 本地脚本所需的 Python 依赖\n│       ├── agents\u002F                       # Codex UI 展示用的 skill 元数据\n│       ├── references\u002F                   # 页面重建、状态机、QA 等参考规范\n│       └── scripts\u002F                      # 输入归一化、组装、校验等辅助脚本\n├── AGENTS.md                             # 仓库级协作和编辑规则\n├── CHANGELOG.md                          # 用户可见变更记录\n├── LICENSE                               # 开源许可证\n├── README.md                             # 中文说明文档\n└── README_en.md                          # 英文说明文档\n```\n\n## Star History\n\n[![Star History Chart](https:\u002F\u002Fapi.star-history.com\u002Fsvg?repos=ningzimu\u002Fimage-to-editable-ppt-skill&type=Date)](https:\u002F\u002Fwww.star-history.com\u002F#ningzimu\u002Fimage-to-editable-ppt-skill&Date)\n\n## 交流群\n\n扫描二维码加入 Skill 交流群，分享使用经验、反馈问题，并获取更新通知。\n\n\u003Cimg src=\"assets\u002Fimage-to-editable-ppt-community-qr.png\" alt=\"Image to Editable PPT Skill 交流群二维码\" width=\"220\">\n\n## 许可证\n\nMIT\n","ningzimu\u002Fimage-to-editable-ppt-skill 是一个将幻灯片图片、PDF 和基于图片的PPTX文件转换为可编辑PowerPoint演示文稿的Codex技能。其核心功能包括通过多代理架构并行处理每一页内容，将文本恢复为原生文本框，简单几何图形恢复为PowerPoint形状，复杂视觉元素则保留为独立图片资产。该工具采用纯视觉重建方案，无需依赖第三方OCR或版面分析服务，适用于需要从截图式或图片式的幻灯片中提取信息并进行二次编辑的场景。无论是单张图片、多张图片、多页PDF还是图片版PPT，它都能高效地转换成易于调整文字和布局的PPT格式，特别适合于需要对现有材料进行修改而不重新创建的情况。",2,"2026-06-11 03:58:48","CREATED_QUERY"]