狠狠色丁香婷婷综合尤物/久久精品综合一区二区三区/中国有色金属学报/国产日韩欧美在线观看 - 国产一区二区三区四区五区tv

400 186 1886

使用Tesseract進行圖片文字識別

當前位置：點晴教程→知識管理交流 →『技術文檔交流』

freeflydom

2024年12月9日 9:42 本文熱度 1509

Tesseract介紹

Tesseract 是一個開源的光學字符識別（OCR）引擎，最初由 HP 在 1985 年至 1995 年間開發，后來被 Google 收購并開源。Tesseract 支持多種語言的文本識別，能夠識別圖片中的文字，并將其轉換為可編輯和可搜索的數據格式。它適用于多種應用場景，包括文檔掃描、圖像處理、數字存檔等。

Tesseract 的最新版本顯著提高了識別準確率，支持的文件格式包括 TIFF、JPEG、PNG 等常見圖片格式。此外，Tesseract 還提供了一個命令行工具，允許用戶通過簡單的命令行輸入來執行 OCR 任務。對于開發者而言，Tesseract 提供了多種編程語言的 API 接口，如 C++、Python、Java 等，使得集成 OCR 功能到各種應用程序中變得更為容易。

除了基本的 OCR 功能外，Tesseract 還支持語言模型和訓練工具，允許用戶根據特定需求訓練自定義模型，以提高某些特定類型或格式文本的識別準確率。這些特性使得 Tesseract 成為了一個強大而靈活的 OCR 工具，廣泛應用于個人和企業的文本數字化處理中。

GitHub地址：https://github.com/tesseract-ocr/tesseract

官方文檔地址：https://tesseract-ocr.github.io

?

下載安裝Tesseract

下載Tesseract

Home · UB-Mannheim/tesseract Wiki

安裝的時候，記得選上中文語言包：

輸入

tesseract -v

查看Tesseract是否安裝成功

設置環境變量：

輸入Tesseract的安裝地址：

注意安裝路徑最好不要包含中文，由于C盤空間還比較充足，我就裝在默認位置了。

再次驗證安裝是否完成：

tesseract -v

安裝成功完成。

Tesseract的基本命令行使用

基本文本識別

最簡單的命令是將圖片中的文本識別并輸出到標準輸出（屏幕）：

tesseract D:\test2.png stdout

默認識別的是英文的，先拿一個英文的圖片試試：

圖片文字識別的效果

效果還是很ok的。

再試試一個中文的圖片：

默認是無法識別中文的，這時候需要指定語言才行。

指定一種語言識別

如果圖片中的文字不是英文，你需要指定相應的語言。Tesseract 支持多種語言，可以通過以下命令查看支持的語言：

tesseract --list-langs

會出現你已經下載了語言包的語言。

指定語言的命令如下（例如，識別中文）：

tesseract D:\test.png stdout -l chi_sim

這里的 -l chi_sim 表示使用簡體中文語言模型。

效果也很不錯。

指定多種語言識別

有時候我們需要同時識別多種語言，以下面這張圖片為例：

在命令行中添加-l LANG[+LANG]可以使用多種語言進行識別：

tesseract D:\test3.png stdout  -l eng+chi_sim

效果也還行。但是會發現識別的中文很多地方都有空格。

將中文改為主要識別語言：

tesseract D:\test3.png stdout  -l chi_sim+eng

可以發現識別的空格少了很多。

保存識別文本到文件

也可以把識別的內容保存在一個txt文件中，命令如下所示：

tesseract D:\test2.png D:\output.txt

使用quiet模式抑制消息

不使用quiet模式與使用quiet模式的對比：

少了表示 Tesseract 正在嘗試估算輸入圖像的分辨率的信息Estimating resolution as 182。

可搜索的pdf輸出

這將創建一個包含圖像和單獨可搜索文本層的PDF，其中包含識別出的文本：

tesseract D:\test2.png D:\output -l eng pdf

實現效果：

HOCR輸出

在命令末尾添加hocr以使用‘hocr’配置文件，獲取HOCR輸出：

tesseract D:\test2.png - -l eng hocr

識別效果：

這樣不夠直觀，保存在一個html文件中，然后再打開看看：

tesseract D:\test2.png D:\test2.html -l eng hocr

把生成的文件后綴改為.html，用瀏覽器打開，效果如下所示：

TSV輸出

在命令末尾添加“tsv”配置文件以獲取TSV輸出：

tesseract D:\test5.jpg - -l chi_sim tsv

以這張圖片為例：

實現效果如下所示：

使用不同的頁面分割模式

-psm 3 - 全自動頁面分割，但無方向和腳本檢測。（默認）

以這張圖片為例：

tesseract D:\test4.png - --psm 3

實現的效果：

-psm 6 - 假定文本為一個整體均勻的塊。

以這張圖片為例：

tesseract D:\test5.png - --psm 6

實現效果如下所示：

使用 -c preserve_interword_spaces=1 來保留空格

tesseract D:\test5.png - --psm 6 -c preserve_interword_spaces=1

實現效果如下所示：

使用pdftotext保持文本輸出的布局

tesseract D:\test5.png D:\test5 -l eng –psm 11 pdf

實現的效果：

總結

現在圖片文字識別已經有多種方式可以實現，也可以通過云服務商的文字識別服務，缺點就是需要網絡，數量多了需要收費，優點就是識別準確率比較高。使用Tesseract與PaddleOCR這種方式的好處就是離線可用，速度也挺快的。

轉自https://www.cnblogs.com/mingupupu/p/18590261

該文章在 2024/12/9 9:42:01 編輯過

關鍵字查詢

文字

圖片

識別

相關文章

點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。

點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理，結合碼頭的業務特點，圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體，是物流碼頭及其他港口類企業的高效ERP管理信息系統。

點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。

點晴免費OA是一款軟件和通用服務都免費，不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。

Copyright 2010-2025 ClickSun All Rights Reserved