狠狠色丁香婷婷综合尤物/久久精品综合一区二区三区/中国有色金属学报/国产日韩欧美在线观看 - 国产一区二区三区四区五区tv

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發文檔 其他文檔  
 
網站管理員

【開源算法】RapidOCRPDF:依托于RapidOCR倉庫,快速提取PDF中文字,包括掃描版PDF、加密版PDF

admin
2023年12月7日 12:27 本文熱度 1401
01  項目鏈接
https://github.com/RapidAI/RapidOCRPDF

02  項目簡介
  • 依托于RapidOCR倉庫,快速提取PDF中文字,包括掃描版PDF、加密版PDF。

  • 如果是可以直接復制的PDF,可以直接使用pdf2docx,不再重復造輪子

  • 如果是掃描版PDF,暫時不支持版式還原,后續有空會考慮加上,日期不定。


03  使用

1、安裝rapidocr_pdf庫 

# 基于rapidocr_onnxruntimepip 
# 基于rapidocr_openvinopip

2、使用

  • 腳本使用
from rapidocr_pdf import PDFExtracter
pdf_extracter = PDFExtracter()
pdf_path = 'tests/test_files/direct_and_image.pdf'
texts = pdf_extracter(pdf_path)
print(texts)
  • 命令行使用
$ rapidocr_pdf -h
usage: rapidocr_pdf [-h] [-path FILE_PATH]
options:
-h, --help            show this help message and exit
-path FILE_PATH, --file_path FILE_PATH 
                       File path, PDF or images
$ rapidocr_pdf -path tests/test_files/direct_and_image.pdf

3、輸入輸出說明

  • 輸入union[str, Path, bytes]

  • 輸出List [頁碼文本內容置信度], 具體參見下例:

[
    ['0', '人之初,性本善。性相近,習相遠。', '0.8969868'],
        ['1', 'Men at their birth, are naturally good.', '0.8969868'],
]


04  更新日志

  • 2023-08-28 v0.0.6 update:

    • 解決PyMuPDF版本依賴問題

  • 2023-04-17 v0.0.2 update:

    • 完善使用文檔


-END-

該文章在 2023/12/7 12:29:51 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。
點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理,結合碼頭的業務特點,圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業的高效ERP管理信息系統。
點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。
Copyright 2010-2025 ClickSun All Rights Reserved