狠狠色丁香婷婷综合尤物/久久精品综合一区二区三区/中国有色金属学报/国产日韩欧美在线观看 - 国产一区二区三区四区五区tv

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發文檔 其他文檔  
 
網站管理員

OCRmyPDF:逆天免費開源!模糊掃描PDF秒變高清可搜文檔!

admin
2025年2月3日 1:4 本文熱度 584

OCRmyPDF 逆天開源!GitHub狂攬15萬+星,模糊掃描PDF秒變高清可搜文檔!


 什么是 OCRmyPDF ?

PDF 是存儲和交換掃描文檔的最佳格式。不幸的是,PDF 可能很難修改。OCRmyPDF 是一個 Python 應用程序和庫,可以輕松地將圖像處理和 OCR(可識別、可搜索的文本)應用于現有 PDF,通過向掃描的 PDF 文件添加 OCR 文本層,使你可以搜索或復制粘貼它們。

鏡像下載

在群暉上以 Docker 方式安裝。

在注冊表中搜索 ocrmypdf ,選擇第一個 jbarlow83/ocrmypdf,版本選擇 latest

本文寫作時, latest 版本對應為 v15.4.2

你也可以使用命令行,用 SSH 客戶端登錄到群暉后,依次執行下面的命令

# 拉取鏡像
docker pull jbarlow83/ocrmypdf:latest

如果拉不動,可以試試 docker 代理網站:https://dockerproxy.com/,但是會多幾個步驟

# 如果拉不動的話加個代理
docker pull dockerproxy.com/jbarlow83/ocrmypdf:latest
# 重命名鏡像(如果是通過代理下載的)
docker tag dockerproxy.com/jbarlow83/ocrmypdf:latest jbarlow83/ocrmypdf:latest
# 刪除代理鏡像(如果是通過代理下載的)
docker rmi dockerproxy.com/jbarlow83/ocrmypdf:latest

下載完成后,可以在 映像 中找到

準備工作

【說明】:

  1. 與典型的 Docker 容器不同,OCRmyPDF Docker 容器是短暫的,它為一個 OCR 作業運行并終止,就像命令行程序一樣。因此,我們通常使用 --rm 參數在容器退出時將其刪除。
  2. 默認情況下,Docker 鏡像包括英語、德語、簡體中文、法語、葡萄牙語和西班牙語,所以中文用戶不需要添加語言包。

在 docker 文件夾中,創建一個新文件夾 ocrmypdf

# 新建文件夾 ocrmypdf 
mkdir -p /volume1/docker/ocrmypdf
# 進入 ocrmypdf 目錄
cd /volume1/docker/ocrmypdf

準備一個文檔用于測試,這是網頁上打印生成的 pdf 文件,直接搜索 sam 是沒有 沒有匹配項

將這個文檔放入 ocrmypdf,命名為 input.pdf

測試驗證

為了方便起見,創建一個 shell 別名來隱藏 Docker 命令。通過使用 alias 命令,為長或復雜的命令創建簡短且易記的別名,以便更快地執行常用操作或減少輸入的工作量

# 創建別名
alias docker_ocrmypdf='docker run --rm  -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" jbarlow83/ocrmypdf:latest'
# 運行 OCR
docker_ocrmypdf /data/input.pdf /data/output.pdf

其中:

  • -- rm:表示在容器退出時,會將其刪除;
  • --user "$(id -u):$(id -g)":用于指定在容器內運行的用戶和組,確保容器內的進程以與宿主機相同的用戶權限運行,以防止權限問題;
  • --workdir /data:指定容器內的工作目錄;
  • -v "$PWD:/data":將 /volume1/docker/ocrmypdf 映射到了容器內的 /data ;

運行完成后,會在 ocrmypdf 中看到多出了一個文件 output.pdf

下載到本地后,用 pdf 閱讀器打開后,繼續搜索 sam 顯示有 2 處匹配

第二處

OCRmyPDF 不僅提供了基本的 OCR 功能,還包括一些高級功能,如自動旋轉、自動裁剪、去除文本陰影、增強圖像質量等。它使用了一些優秀的開源工具和庫,如 Tesseract OCR 引擎、Ghostscript 和 ImageMagick,以提供強大的 OCR和 PDF處理功能,當然,OCRmyPDF 無法打開使用數字證書加密的文檔。

參考文檔

ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
地址:https://github.com/ocrmypdf/OCRmyPDF

OCRmyPDF documentation
地址:https://ocrmypdf.readthedocs.io

jbarlow83/ocrmypdf - Docker Image | Docker Hub
地址:https://hub.docker.com/r/jbarlow83/ocrmypdf


該文章在 2025/2/5 17:14:28 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。
點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理,結合碼頭的業務特點,圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業的高效ERP管理信息系統。
點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。
Copyright 2010-2025 ClickSun All Rights Reserved