狠狠色丁香婷婷综合尤物/久久精品综合一区二区三区/中国有色金属学报/国产日韩欧美在线观看 - 国产一区二区三区四区五区tv

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開(kāi)發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

高質(zhì)量PDF內(nèi)容提取工具PDF-Extract-Kit

admin
2024年7月24日 23:51 本文熱度 760

項(xiàng)目簡(jiǎn)介


PDF-Extract-Kit通過(guò)集成多個(gè)模型實(shí)現(xiàn)了PDF高質(zhì)量提取,適用于學(xué)術(shù)論文、教科書(shū)、研究報(bào)告和財(cái)務(wù)報(bào)表等多種文檔類(lèi)型,在掃描模糊或有水印的情況下也能保持高魯棒性

1、布局檢測(cè)采用LayoutLMv3模型進(jìn)行區(qū)域檢測(cè),包括圖像、表格、標(biāo)題、文本等

2、公式檢測(cè)上采用YOLOv8,包含行內(nèi)公式和行間公式

3、公式識(shí)別上采用UniMERNet識(shí)別

4、光學(xué)字符識(shí)別使用PaddleOCR進(jìn)行文本識(shí)別

對(duì)于公式識(shí)別,UniMERNet可以媲美商業(yè)軟件;OCR上使用PaddleOCR,對(duì)中英文OCR效果不錯(cuò),之前分享過(guò)

PDF內(nèi)容提取框架如下圖所示

結(jié)合多樣性PDF文檔標(biāo)注,我們訓(xùn)練了魯棒的布局檢測(cè)和公式檢測(cè)模型。在論文、教材、研報(bào)、財(cái)報(bào)等多樣性的PDF文檔上,我們的pipeline都能得到準(zhǔn)確的提取結(jié)果,對(duì)于掃描模糊、水印等情況也有較高魯棒性。


評(píng)測(cè)指標(biāo)

現(xiàn)有開(kāi)源模型多基于Arxiv論文類(lèi)型數(shù)據(jù)進(jìn)行訓(xùn)練,面對(duì)多樣性的PDF文檔,提前質(zhì)量遠(yuǎn)不能達(dá)到實(shí)用需求。相比之下,我們的模型經(jīng)過(guò)多樣化數(shù)據(jù)訓(xùn)練,可以適應(yīng)各種類(lèi)型文檔提取。

布局檢測(cè)

我們與現(xiàn)有的開(kāi)源Layout檢測(cè)模型做了對(duì)比,包括DocXchain、Surya、360LayoutAnalysis的兩個(gè)模型。而LayoutLMv3-SFT指的是我們?cè)贚ayoutLMv3-base-chinese預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上進(jìn)一步做了SFT訓(xùn)練后的模型。論文驗(yàn)證集由402張論文頁(yè)面構(gòu)成,教材驗(yàn)證集由587張不同來(lái)源的教材頁(yè)面構(gòu)成。

模型論文驗(yàn)證集教材驗(yàn)證集
mAPAP50AR50mAPAP50AR50
DocXchain52.869.577.334.950.163.5
Surya24.239.466.113.923.349.9
360LayoutAnalysis-Paper37.753.659.820.731.343.6
360LayoutAnalysis-Report35.146.955.925.433.745.1
LayoutLMv3-SFT77.693.395.567.982.787.9


公式檢測(cè)

我們與開(kāi)源的模型Pix2Text-MFD做了對(duì)比。另外,YOLOv8-Trained是我們?cè)赮OLOv8l模型的基礎(chǔ)上訓(xùn)練后的權(quán)重。論文驗(yàn)證集由255張論文頁(yè)面構(gòu)成,多源驗(yàn)證集由789張不同來(lái)源的頁(yè)面構(gòu)成,包括教材、書(shū)籍等。

模型論文驗(yàn)證集多源驗(yàn)證集
AP50AR50AP50AR50
Pix2Text-MFD60.164.658.962.8
YOLOv8-Trained87.789.982.487.3


公式識(shí)別

公式識(shí)別我們使用的是Unimernet的權(quán)重,沒(méi)有進(jìn)一步的SFT訓(xùn)練,其精度驗(yàn)證結(jié)果可以在其GitHub頁(yè)面獲取。

使用教程

環(huán)境安裝

conda create -n pipeline python=3.10
pip install -r requirements.txt
pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121

安裝完環(huán)境后,可能會(huì)遇到一些版本沖突導(dǎo)致版本變更,如果遇到了版本相關(guān)的報(bào)錯(cuò),可以嘗試下面的命令重新安裝指定版本的庫(kù)。

pip install pillow==8.4.0

除了版本沖突外,可能還會(huì)遇到torch無(wú)法調(diào)用的錯(cuò)誤,可以先把下面的庫(kù)卸載,然后重新安裝cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

項(xiàng)目鏈接

https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md


該文章在 2024/7/24 23:53:50 編輯過(guò)
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專(zhuān)業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國(guó)內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車(chē)隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開(kāi)發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類(lèi)企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉(cāng)儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷(xiāo)售管理,采購(gòu)管理,倉(cāng)儲(chǔ)管理,倉(cāng)庫(kù)管理,保質(zhì)期管理,貨位管理,庫(kù)位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved