[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-1885":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":23,"hasPages":25,"topics":26,"createdAt":10,"pushedAt":10,"updatedAt":27,"readmeContent":28,"aiSummary":29,"trendingCount":16,"starSnapshotCount":16,"syncStatus":15,"lastSyncTime":30,"discoverSource":31},1885,"jt-doc-tools","jasoncheng7115\u002Fjt-doc-tools","jasoncheng7115","整合式 PDF \u002F Office 文件處理平台，自架、開源、可控。","https:\u002F\u002Fjasoncheng7115.github.io\u002Fjt-doc-tools\u002F",null,"Python",191,43,1,2,0,3,5,26,9,4.93,"Apache License 2.0",false,"main",true,[],"2026-06-12 02:00:34","# Jason Tools 文件工具箱 v1.11.30\n\n> 整合式 PDF \u002F Office 文件處理平台，38 個工具一站式解決：**填單用印**、**浮水印**、**多頁合併 \u002F 拆分 \u002F 旋轉 \u002F 整理**、**轉檔**、**掃描拼合**、**去識別化**、**字數統計**、**註解整理**、**差異比對**、**逐句翻譯**、**清單處理**、**電子發票處理**、**統編查詢**、**頁面編輯器**、**加密 \u002F 解密**。。。\n>\n> 企業功能：**本機 \u002F LDAP \u002F AD 多領域認證**、**RBAC 角色權限**、**稽核記錄**、**SIEM 轉送**(syslog \u002F CEF \u002F GELF)、**字型管理**、**REST API**。\n>\n> **不上雲，資料留在自己手中。** Linux \u002F macOS \u002F Windows 三平台都可單機跑或內網架站給多人用。\n\n完整介紹網站：\u003Chttps:\u002F\u002Fjasoncheng7115.github.io\u002Fjt-doc-tools\u002F>\n\n[![License: Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-blue.svg)](LICENSE)\n[![CodeQL](https:\u002F\u002Fgithub.com\u002Fjasoncheng7115\u002Fjt-doc-tools\u002Factions\u002Fworkflows\u002Fcodeql.yml\u002Fbadge.svg?branch=main)](https:\u002F\u002Fgithub.com\u002Fjasoncheng7115\u002Fjt-doc-tools\u002Factions\u002Fworkflows\u002Fcodeql.yml)\n[![OWASP Top 10 (2025)](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOWASP%20Top%2010%20(2025)-A01--A10%20covered-success?logo=owasp)](SECURITY.md)\n[![Tests](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpytest-470%20passed-brightgreen?logo=pytest)](tests\u002F)\n[![Dependabot](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDependabot-enabled-success?logo=dependabot)](.github\u002Fdependabot.yml)\n[![Python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.12+-blue?logo=python&logoColor=white)](pyproject.toml)\n[![Platforms](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fplatforms-Linux%20%7C%20macOS%20%7C%20Windows-lightgrey)](INSTALL.md)\n\n---\n\n## 一行安裝\n\n### 系統需求\n\n| 項目 | 最低 | 建議 |\n|---|---|---|\n| 作業系統 | Ubuntu 20.04+ \u002F Debian 11+ \u002F macOS 12+ \u002F Windows 10 1809+ | 任一最新版 |\n| 磁碟空間 | **12 GB** 整機 \u002F VM \u002F LXC 容量（最低）| **20 GB+**（含資料目錄成長空間） |\n| 記憶體 RAM | 2 GB 可用 | 4 GB+ |\n| CPU | x86_64 \u002F arm64（Apple Silicon、Win11 ARM 都可）| 4 核心+ |\n| 網路 | 安裝時可連 GitHub \u002F PyPI（之後純內網運作）| — |\n| Python | 3.10+（安裝腳本會自動處理 uv-managed Python） | — |\n\n> **磁碟用量大解析**（為什麼底線抓 12 GB 而非看似夠的 5-8 GB）：\n> - **OS 基底**：Debian \u002F Ubuntu 最小裝 ~1.5-2 GB；其他 distro \u002F 含桌面更大。\n> - **安裝期間峰值 ~6-8 GB**：apt 暫存 .deb 套件 ~1 GB（OxOffice \u002F LibreOffice 相依）+ uv wheel cache ~1-2 GB（PyTorch 700 MB + 其他）+ 解壓中間檔。安裝腳本會自動 `apt-get clean` + `uv cache clean` 釋放，但**峰值期間**就是要這麼大。\n> - **安裝完成後常駐 ~3 GB**：Python 環境 ~1.5 GB（含 PyTorch \u002F EasyOCR 主 OCR 引擎）+ tesseract trained data ~80 MB（chi_tra fast+best 雙變體 + eng）+ OxOffice\u002FLibreOffice ~1 GB。EasyOCR 模型首次 OCR 時再下載 ~150 MB。\n> - **資料目錄成長**：使用者上傳檔案 + 稽核記錄 + 歷史會持續累積。如資料磁碟吃緊，可用 `JTDT_DATA_DIR=\u002Fmnt\u002Fbig-disk\u002Fjtdt curl ... | sudo -E bash` 改裝到別處。\n>\n> **LXC \u002F VM 配置建議**：12 GB 是會通過的底線（OS 2 GB + 峰值 8 GB + 緩衝 2 GB），正式使用至少給 20 GB 才不會 3 個月後再爆。**8 GB LXC 一定裝不下**（已有客戶踩到）。\n\n### 一行指令\n\n**Linux \u002F macOS**:\n```bash\ncurl -fsSL https:\u002F\u002Fraw.githubusercontent.com\u002Fjasoncheng7115\u002Fjt-doc-tools\u002Fmain\u002Finstall.sh | sudo bash\n```\n\n**Windows 10 \u002F 11**（以系統管理員身分執行 PowerShell）:\n```powershell\n$f=\"$env:TEMP\\jtdt-install.ps1\"; try { Invoke-WebRequest 'https:\u002F\u002Fcdn.jsdelivr.net\u002Fgh\u002Fjasoncheng7115\u002Fjt-doc-tools@main\u002Finstall.ps1' -OutFile $f -UseBasicParsing -TimeoutSec 15 -ErrorAction Stop; powershell -NoProfile -ExecutionPolicy Bypass -File $f } catch { Write-Host \"[X] 下載安裝腳本失敗：$($_.Exception.Message)\" -ForegroundColor Red }; Read-Host '按 Enter 關閉'\n```\n\n裝完開瀏覽器到 **\u003Chttp:\u002F\u002F127.0.0.1:8765\u002F>** 即可使用。\n\n> 安裝時長約 5-15 分鐘（依網速 — PyTorch 700MB 是大頭）。網速慢的環境建議先 `screen` \u002F `tmux` 開背景再跑，避免斷線。\n\n詳細安裝說明見 **[INSTALL.md](INSTALL.md)**（含必要工具、平台差異、解除安裝）。\n\n---\n\n## 38 個工具速覽\n\n### 填單用印\n- **表單自動填寫** — 自動偵測欄位 + 模板填值\n- **用印與簽名** — 拖放套用印章 \u002F 簽名\n- **浮水印** — 文字 \u002F 圖片浮水印，支援多檔批次\n\n### 檔案編輯\n- **頁面編輯器** — 文字框 \u002F 形狀 \u002F 白底 \u002F 螢光筆 \u002F 簽名 \u002F 註解 \u002F 真刪物件\n- **頁面整理 \u002F 旋轉 \u002F 頁碼 \u002F 多頁合併 (N-up)**\n- **檔案合併 \u002F 頁面分拆**\n- **掃描拼合** — 拉入多張掃描，自動抓出有內容的區塊、保留原彩色，依原位置合成到同一張 A4 白底；主打證件正反面，可拖曳微調、淡灰底自動淨白\n\n### 內容處理\n- **擷取文字 \u002F 圖片 \u002F 附件** — 含 LLM 段落重排選項\n- **字數統計** — 表格 + 圖表 + LLM 摘要\n- **註解整理 \u002F 清除 \u002F 平面化**\n- **OCR 文字辨識** — 掃描 PDF \u002F 圖片跑 OCR 後變可搜尋、可滑鼠選取複製（同 macOS 預覽程式 Live Text 概念）；雙引擎（**EasyOCR** 預設，中日韓辨識準確度高；**Tesseract** 備援），可選 LLM 校正 typo。**支援外部 GPU 識別伺服器**（DGX Spark \u002F H100 \u002F 4090 等），管理介面下載 `install.sh` 即可一鍵部署，每頁辨識時間從 CPU 上的 8-15 秒降到 GPU 上的 0.3-0.8 秒（**速度 10× 以上**）。\n- **送件前檢核** — 批次驗收：頁面尺寸、字型嵌入、欄位完整、敏感資料殘留、隱藏內容\n- **清單處理** — 貼文字 \u002F 上傳 .txt \u002F .csv \u002F .xlsx \u002F .docx \u002F .pdf 等檔案，一行一筆做排序 \u002F 去重 \u002F 篩選 \u002F 取頭尾 \u002F 大小寫轉換等，可組合多種操作；結果一鍵複製或下載 .txt \u002F .csv \u002F .xlsx\n- **電子發票處理** — 掃台灣電子發票 QR Code 解出發票號碼 \u002F 日期 \u002F 金額 \u002F 統編，自動帶賣方公司名、行業、會計科目（規則 + 可選 LLM 判讀），支援報帳檢查 + 當期發票檢查，匯出 .xlsx \u002F .ods \u002F .csv \u002F .json \u002F .xml \u002F .txt \u002F .md（標題可自訂）\n- **統編查詢** — 輸入 8 位統一編號反查，或公司 \u002F 機關 \u002F 學校名稱、地址、行業關鍵字模糊搜尋（高亮命中字）；含類別篩選 + 批次查詢 + CSV 匯出\n\n### 格式轉換 [需 OxOffice\u002FLibreOffice]\n- **文書轉 PDF \u002F 圖片** — Word \u002F Excel \u002F PowerPoint \u002F ODF\n- **圖片轉 PDF**\n- **PDF 轉文書檔（Beta）** — PDF 反轉成 Word (.docx) \u002F OpenDocument (.odt)，雙引擎可選：pdf2docx 與自家 jtdt-reform，還原版面 \u002F 表格 \u002F 圖片\n\n### 資安處理\n- **文件去識別化 \u002F 文字去識別化** — 身分證 \u002F 電話 \u002F 銀行帳號 \u002F 統編 \u002F AD DN 等 14+ 種敏感資料\n- **PDF 加密 \u002F 解密**\n- **中繼資料清除**\n- **隱藏內容掃描**\n- **文件差異比對 \u002F 文字差異比對**\n- **逐句翻譯**\n- **壓縮**\n\n> 標 [需 OxOffice\u002FLibreOffice] 的工具會用到 OxOffice \u002F LibreOffice（OxOffice 優先，OSSII 維護的台灣本地化 fork，CJK 支援更好）。其他 26 個工具只處理 PDF \u002F 純文字 \u002F 圖片，不需要 Office 引擎。安裝腳本會自動處理。\n\n---\n\n## LLM AI 加值（選用，預設關閉）\n\n接 OpenAI-compatible 後端（本機 Ollama \u002F vLLM \u002F LM Studio \u002F DGX Spark）後，**11 個工具**自動多出聰明選項：\n\n| 工具 | LLM 做什麼 | 模式 |\n|---|---|---|\n| 逐句翻譯 | 翻譯時保留排版 + 領域專業用詞 | text |\n| 擷取文字 | 把 PDF 雙欄切斷的句子重新接回 | text |\n| OCR 文字辨識 | 校正 OCR typo（同 word count 才套用，避免幻覺改字） | text |\n| 表單自動填寫 | 填完後 LLM 看 PNG 校驗欄位錯位 \u002F 截斷 | **vision** |\n| 送件前檢核 | 內容語意檢查 + PNG 視覺驗收（補充 regex \u002F 結構檢查抓不到的問題） | text + **vision** |\n| 文件去識別化 | regex 抓不到的客戶代號 \u002F 主管姓名 \u002F 內部編號 | text |\n| 文字去識別化 | 同上，純文字輸入版 | text |\n| 字數統計 | 額外生成 3-5 句摘要 + TOP 10 關鍵字 | text |\n| 註解整理 | 多筆審閱意見自動分「重大 \u002F 一般 \u002F 提問」 | text |\n| 文件差異比對 | 行 diff 之外多給「主要修改了哪幾條條款」自然語言摘要 | text |\n| 電子發票處理 | 規則對不到的品項，用 LLM 判讀會計科目分類 | text |\n\n**核心工具完全不依賴 LLM**；沒設定就跟以前一樣全部能用。詳見 **[LLM.md](LLM.md)**。\n\n---\n\n## 文件導覽\n\n| 文件 | 內容 |\n|---|---|\n| **[INSTALL.md](INSTALL.md)** | 三平台詳細安裝、必要工具、安裝位置、系統需求、解除安裝 |\n| **[OPS.md](OPS.md)** | 日常運維：`jtdt` 指令、升級、反向代理(nginx\u002FCaddy)、監聽位置、備份還原、排程清理 |\n| **[AUTH.md](AUTH.md)** | 認證 \u002F RBAC \u002F 內建帳號(jtdt-admin \u002F jtdt-auditor)\u002F 2FA \u002F 帳號鎖定 \u002F 緊急復原 |\n| **[API.md](API.md)**（[線上網頁版](https:\u002F\u002Fjasoncheng7115.github.io\u002Fjt-doc-tools\u002Fapi.html)）| REST API:Bearer token、endpoint 一覽、上傳格式、回傳格式、錯誤碼、curl \u002F Python 範例、Job 流程 |\n| **[LLM.md](LLM.md)** | LLM AI 加值功能（預設關閉）：11 個工具如何用 LLM、效果範例、部署選項（Ollama \u002F vLLM \u002F DGX Spark） |\n| **[SECURITY.md](SECURITY.md)** | 資安政策、OWASP Top 10 (2025) 對照、漏洞回報管道、GitHub native scan 整合 |\n| **[CHANGELOG.md](CHANGELOG.md)** | 完整更新記錄 |\n| **[TEST_PLAN.md](TEST_PLAN.md)** | 測試清單、發版前檢查 |\n| **[THIRD-PARTY-NOTICES.md](THIRD-PARTY-NOTICES.md)** | 第三方套件授權聲明 |\n\n---\n\n## 隱私 \u002F 安全要點\n\n- **不上雲、資料留在自己手中** — 所有檔案處理發生在你的伺服器上\n- **資料目錄獨立** — 不會跟使用者個人檔案混在一起，Windows 不 roam\n- **預設不啟用認證**（單機模式） — 全新安裝跟以前一樣大家直接用；要多人或內網部署再啟用\n- **稽核記錄 + SIEM 轉送** — 啟用認證後所有敏感操作記下並可即時轉發\n- **可選 LLM 校驗** — 預設關閉，自接 Ollama \u002F 本機 LLM 才會啟用，不打雲端\n\n詳見 [SECURITY.md](SECURITY.md)。\n\n---\n\n## 開發 \u002F 進階\n\n```bash\n# Clone repo\ngit clone https:\u002F\u002Fgithub.com\u002Fjasoncheng7115\u002Fjt-doc-tools\ncd jt-doc-tools\n\n# 用 uv 建環境(不修改系統 Python)\nuv sync\n\n# 跑測試\nuv run pytest\n\n# 開發模式(自動 reload)\nJTDT_DEBUG=true uv run python -m app.main\n```\n\n---\n\n## 授權\n\nApache License 2.0 — 詳見 [LICENSE](LICENSE)。第三方套件授權見 [THIRD-PARTY-NOTICES.md](THIRD-PARTY-NOTICES.md)。\n\n## 免責聲明\n\n本軟體依「現狀」(AS IS)提供，**不附任何明示或暗示之保證**，包含但不限於商業適售性、特定用途之適用性、不侵權之保證。\n\n- 使用者應**自行承擔**使用本軟體之全部風險\n- 對於本軟體導致之任何**直接、間接、附帶、衍生性或懲罰性損害**（含資料毀損、商業中斷、收益損失、商譽損害等），作者與貢獻者**概不負責**\n- 涉及個人資料、敏感商業文件處理時，使用者應**自行確保符合**所在地之個人資料保護法、公司資安政策、以及相關法規（包含但不限於我國個人資料保護法、營業秘密法）\n- 本軟體之 LLM \u002F AI 校驗等功能為**選用且預設關閉**；若啟用後接外部模型供應商，相關資料傳輸風險由使用者自負\n- 本軟體之輸出結果（如表單自動填寫、去識別化、OCR、LLM 校對）僅供**輔助參考**，最終正確性仍須由使用者確認；對重要文件請務必對照原檔複核\n- 本軟體與 Adobe、Microsoft、OSSII、TheDocumentFoundation 等任何第三方公司**無任何附屬、贊助或背書關係**\n\n繼續使用即視為接受上述條款。\n\n---\n\n## 連結 \u002F 作者\n\n- **介紹網站**：\u003Chttps:\u002F\u002Fjasoncheng7115.github.io\u002Fjt-doc-tools\u002F>\n- **原始碼庫**：\u003Chttps:\u002F\u002Fgithub.com\u002Fjasoncheng7115\u002Fjt-doc-tools>\n- **回報問題**：\u003Chttps:\u002F\u002Fgithub.com\u002Fjasoncheng7115\u002Fjt-doc-tools\u002Fissues>\n\n**Jason Cheng** (Jason Tools) — [email]\n","jt-doc-tools 是一个整合式的 PDF 和 Office 文件处理平台，提供了38种工具来一站式解决文件处理需求。其核心功能包括填单用印、浮水印处理、多页合并\u002F拆分\u002F旋转\u002F整理、转档、扫描拼合、去识别化等，并且支持本机\u002FLDAP\u002FAD多领域认证、RBAC角色权限管理、稽核记录以及SIEM转送等功能。该平台采用Python编写，具有开源可控的特点，适用于需要在本地或内网环境中高效管理和处理大量文档的企业场景，确保数据安全的同时提高工作效率。","2026-06-11 02:46:39","CREATED_QUERY"]