[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-74274":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":23,"hasPages":23,"topics":25,"createdAt":10,"pushedAt":10,"updatedAt":26,"readmeContent":27,"aiSummary":28,"trendingCount":16,"starSnapshotCount":16,"syncStatus":17,"lastSyncTime":29,"discoverSource":30},74274,"ndlocr-lite","ndl-lab\u002Fndlocr-lite","ndl-lab","NDLOCR-Liteアプリケーションのリポジトリ（ソースコードを含む）NDLOCR‑Lite application repository (including source code)","",null,"Python",1225,75,7,4,0,2,9,30,6,18.64,"Creative Commons Attribution 4.0 International",false,"master",[],"2026-06-12 02:03:24","# NDLOCR-Liteアプリケーションのリポジトリ\n**（2026\u002F04\u002F24追記）v1.2から手書き文字の認識等を強化しています。**\n\nNDLOCR-Liteを利用してテキスト化を実行するためのアプリケーションを提供するリポジトリです。\n\nNDLOCR-Liteは、[NDLOCR](https:\u002F\u002Fgithub.com\u002Fndl-lab\u002Fndlocr_cli)の軽量版を目指して開発したOCRであり、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、図書や雑誌といった資料のデジタル化画像からテキストデータが作成できるOCRです。\n\nGPUを必要としないOCR処理に特徴があり、ノートパソコン等の一般的な家庭用コンピュータやOS環境において高速に実行可能です。\n\nWindows(Windows 11)、Mac(Apple M4, macOS Sequoia)及びLinux(Ubuntu 22.04)環境において動作確認しています。\n\n本プログラムは[NDLラボ](https:\u002F\u002Flab.ndl.go.jp)におけるこれまでの調査研究活動によって得られた知見、特に[NDL古典籍OCR-Lite](https:\u002F\u002Fgithub.com\u002Fndl-lab\u002Fndlkotenocr-lite)の開発経験を踏まえて職員が内製で開発しました。\n\n本プログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。詳細については[LICENCE](.\u002FLICENCE)をご覧ください。なお、本アプリケーションの実行時に利用するライブラリ等のライセンスについては[LICENCE_DEPENDENCIES](.\u002FLICENCE_DEPENDENCEIES)をご覧ください。\n\n## デスクトップアプリケーションによる利用\n\n**デスクトップアプリケーションを利用する際には、日本語（全角文字）を含まないパスにアプリケーションを配置してください。全角文字を含む場合に起動しないことがあります。**\n\n[releases](https:\u002F\u002Fgithub.com\u002Fndl-lab\u002Fndlocr-lite\u002Freleases)からお使いのOS環境（Windows\u002FMac\u002FLinux）に合ったファイルをダウンロードしてください。\n\nデスクトップアプリケーションの操作方法については[NDLOCR-Liteの使い方](https:\u002F\u002Flab.ndl.go.jp\u002Fdata_set\u002Fndlocrlite-usage\u002F)、ビルド方法については[デスクトップアプリケーションの利用方法](.\u002Fndlocr-lite-gui\u002FREADME.md)を参照してください。\n\n次のgifアニメーションは、\n\n[国立国会図書館総務部総務課 編『国立国会図書館年報』昭和27年度,国立国会図書館,1954. 国立国会図書館デジタルコレクション https:\u002F\u002Fdl.ndl.go.jp\u002Fpid\u002F3048008\"](https:\u002F\u002Fdl.ndl.go.jp\u002Fpid\u002F3048008\u002F1\u002F24)\n\nをNDLOCR-Liteの画面キャプチャ機能によって、画像ファイルを介さずにテキスト化するデモを示しています。\n\n\u003Cimg src=\"resource\u002Fdemo_lite.gif\" width=\"600\" alt=\"キャプチャモードのデモ動画\">\n\n## コマンドラインからの利用\n\n※コマンドラインから操作を行うにはPython 3.10以上が必要です。\n\n事前準備\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fndl-lab\u002Fndlocr-lite\ncd ndlocr-lite\npip install -r requirements.txt\ncd src\n```\n\n実行例1.（同階層にある「9892834_0001」という名称のディレクトリ内の画像を一括処理し、tmpdirという名称のディレクトリに結果を出力する。）\n\n```bash\npython3 ocr.py --sourcedir 9892834_0001 --output tmpdir \n```\n\n実行例2.（同階層にある「digidepo_1287221_00000002.jpg」という名称の画像を処理し、tmpdirという名称のディレクトリに結果を出力する。）\n\n```bash\npython3 ocr.py --sourceimg digidepo_1287221_00000002.jpg --output tmpdir\n```\n\nuv(\u003Chttps:\u002F\u002Fgithub.com\u002Fastral-sh\u002Fuv>)をお使いの環境であれば、以下のようにしても導入・実行可能です。この場合、「ndlocr-lite」というコマンドから実行できます。\n\n導入方法\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fndl-lab\u002Fndlocr-lite\ncd ndlocr-lite\nuv tool install .\n```\n\n実行例\n\n```bash\nndlocr-lite --sourceimg digidepo_1287221_00000002.jpg --output tmpdir \n```\n\n### パラメータの説明\n\n#### `--sourcedir`オプション\n\n処理したい画像の含まれるディレクトリを絶対パスまたは相対パスで指定する。ディレクトリ内の\"jpg（jpegも可）\"、\"png\"、\"tiff（tifも可）\"、\"jp2\"及び\"bmp\"の拡張子のファイルを順次処理する。\n\n#### `--sourceimg`オプション\n\n処理したい画像を絶対パスまたは相対パスで直接指定する。\"jpg（jpegも可）\"、\"png\"、\"tiff（tifも可）\"、\"jp2\"及び\"bmp\"の拡張子のファイルを処理することが可能。\n\n#### `--output`オプション\n\nOCR結果を保存する出力先ディレクトリを相対パスまたは絶対パスで指定する。\n\n#### `--viz`オプション\n\n`--viz True`を指定することで、文字認識箇所を青枠で表示した画像を出力先ディレクトリに出力する。\n\n#### `--device`オプション（ベータ）\n\n対応GPUを搭載したサーバかつonnxruntime-gpuがインストールされている環境に限り、`--device cuda`を指定することでGPUを利用した処理に切り替える。\n\n#### `--json-only`オプション\n`--json-only`を指定することで、出力形式のうちjsonのみを出力する。\n\n#### `--enable-tcy`オプション\n`--enable-tcy`を指定することで、縦中横の読み取りを改善する。\n\n\n\n## OCR結果の例\n\n|資料画像|OCR結果の冒頭（誤認識を含む）|OCR結果のxml|\n|---|---|---|\n|\u003Cimg src=\".\u002Fresource\u002Fviz_digidepo_2531162_0024.jpg\" width=\"400\" alt=\"レイアウト認識結果\">\u003Cbr>国立国会図書館総務部 編『国立国会図書館スタッフ・マニュアル』E-2,国立国会図書館,1963.8. 国立国会図書館デジタルコレクション \u003Chttps:\u002F\u002Fdl.ndl.go.jp\u002Fpid\u002F2531162\u002F1\u002F23>|(2) 気送子送付管気送手送付には、上記気送管にて送付するものと、空気の圧縮を使用せず.直接落下させる装置の二通りがある。後者の送付管は出納台左側に設置されており.5|[OCR結果(xmlファイル)](.\u002Fresource\u002Fdigidepo_2531162_0024.xml)|\n|\u003Cimg src=\".\u002Fresource\u002Fviz_digidepo_11048278_po_geppo1803_00021.jpg\" width=\"400\" alt=\"レイアウト認識結果\">\u003Cbr> 館内スコープ　次世代室の謎に迫れ！. 国立国会図書館月報. 2018, (683),　 p.20. \u003Chttp:\u002F\u002Fdl.ndl.go.jp\u002Finfo:ndljp\u002Fpid\u002F11048278>|はじめまして!私は2017年4月に就職後、次世代システム開発研究室(次世代室)という場所で仕事をしています。でも、「次世代室」って何をするところか想像しにくいですよね。次世代室は、図書館の役割がインターネット等の情報技術で変化する中、より先進的なサービスを検討していくために作られた比較的新しい部署です。|[OCR結果(xmlファイル)](.\u002Fresource\u002Fdigidepo_11048278_po_geppo1803_00021.xml)|\n|\u003Cimg src=\".\u002Fresource\u002Fviz_digidepo_3048008_0025.jpg\" width=\"400\" alt=\"レイアウト認識結果\">\u003Cbr>国立国会図書館総務部総務課 編『国立国会図書館年報』昭和27年度,国立国会図書館,1954. 国立国会図書館デジタルコレクション \u003Chttps:\u002F\u002Fdl.ndl.go.jp\u002Fpid\u002F3048008\u002F1\u002F25>|第8章職員、庁舍、財政、記念行事等1.職員A.司書職員の研修昭和26年度(第4回)研修に引続き、昭和27年度(第5回)司書職員研修を27年6月2日から28年4月10日まで320時間、研修生50名に実施した。本年度は、東京学芸大学の協力を得て、講師は、本館職員が専門分野の科目を担当した外、東京学芸大学の教授が担当した。本年度も單位科目ごとに試験を実施し、必修科目(11單位)選択科目(4單位)合わせて15單位以上の試験に合格した43名が修了した。|[OCR結果(xmlファイル)](.\u002Fresource\u002Fdigidepo_3048008_0025.xml)|\n|\u003Cimg src=\".\u002Fresource\u002Fviz_tategaki2026-04-24-094138.png\" width=\"400\" alt=\"レイアウト認識結果\">|春はあけぼのやうやう白くなりゆく山ぎはすこしあがりて、紫だちたる雲のほそくたなびきたる夏は夜。月のころはさらなり。やみもなは、蛍の多く飛びちがひたる、|[OCR結果(xmlファイル)](.\u002Fresource\u002Ftategaki2026-04-24-094138.xml)|\n|\u003Cimg src=\".\u002Fresource\u002Fviz_yokogaki2026-04-24-103617.png\" width=\"400\" alt=\"レイアウト認識結果\">|つれづれなるままに、日くらし、硯におかひて、八つに移りゆくよしなし事をそこはかとなく書きつくれば、あやしうこそものぐるほししけれ|[OCR結果(xmlファイル)](.\u002Fresource\u002Fyokogaki2026-04-24-103617.xml)|\n\n\n\n## モデルの認識性能について\n\n### [F値による日本語活字の評価結果](\u002Fevaluation_jptype.csv) \n日本語活字の図書及び雑誌に対するF値による評価結果を公表しています。\n\n[NDLOCR ver.2.1の評価結果](https:\u002F\u002Flab.ndl.go.jp\u002Fdata_set\u002Fr4ocr\u002Fr4_software#5-3-文字認識性能の評価結果)と同様の評価用データセット・同様の評価手法による値です。\n\n### 手書き文字に対する評価(NDLOCR-Lite ver.1.2.1)\n\nMaeda, K., & Okazaki, N. JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding. arXiv preprint arXiv:2603.27942, 2026.(\u003Chttps:\u002F\u002Farxiv.org\u002Fabs\u002F2603.27942>)\n\nによって作成された[JaWildText（外部サイト）](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fjawildtext)のうち、手書き文字データセット1,065画像を用いて評価しました。\n\n全体平均CER : 0.268 (対象: 1065 ファイル)\n\n縦書き平均CER : 0.279 (対象: 295 ファイル)\n\n横書き平均CER : 0.264 (対象: 768 ファイル)\n\n※CER(Character Error Rate、文字誤り率):0から1までの範囲を取り、0に近いほど高い性能を表すスコア\n\n## モデルの再学習及びカスタマイズについて（開発者向け情報）\n\n[学習及びモデル変換手順](\u002Ftrain\u002FREADME.md)をご覧ください。\n\n## 技術情報について（開発者向け情報）\n\nNDLOCR-Liteは「レイアウト認識」、「文字列認識」、「読み順整序」の3つの機能（モジュール）を組み合わせて実現しています。\n\nレイアウト認識にはDEIMv2[1]、文字列認識にはPARSeq[2]をそれぞれ用いており、読み順整序については当館が公開している[NDLOCR](https:\u002F\u002Fgithub.com\u002Fndl-lab\u002Fndlocr_cli)と同様のモジュールを用いています。\n\n[1]Shihua Huang and Yongjie Hou and Longfei Liu and Xuanlong Yu and Xi Shen. Real-Time Object Detection Meets DINOv3. arXiv preprint arXiv:2509.20787, 2025.(\u003Chttps:\u002F\u002Farxiv.org\u002Fabs\u002F2509.20787>)\n\n[2]Darwin Bautista, Rowel Atienza. Scene text recognition with permuted autoregressive sequence models. arXiv:2212.06966, 2022. (\u003Chttps:\u002F\u002Farxiv.org\u002Fabs\u002F2207.06966>)\n\nレイアウト認識及び文字列認識の機械学習モデルは、いずれもpytorchをフレームワークとした学習を行った後にONNX形式に変換して利用しています。詳しくは[学習及びモデル変換手順](\u002Ftrain\u002FREADME.md)をご覧ください。\n","NDLOCR-Lite是一个轻量级的OCR应用程序，旨在将书籍、杂志等资料的数字化图像转换为文本数据。该项目使用Python编写，主要特点在于无需GPU即可在普通家用计算机上高效运行OCR处理，支持Windows、Mac和Linux操作系统。特别适合于个人用户或小型机构对历史文献、纸质文档进行数字化处理的场景。此外，项目还提供了图形界面和命令行两种使用方式，方便不同需求的用户操作，并且支持多种图片格式输入以及输出结果可视化等功能。","2026-06-11 03:49:47","high_star"]