如何提取pdf中的所有文字如何從Python中提取PDF文檔信息？

2023-06-03

1594

如何從Python中提取PDF文檔信息？好我們可以用Python能夠完成這項工作。下面就能分享幫一下忙該如何用Python解析三個PDF文件，將其轉(zhuǎn)為一列關(guān)鍵字。設(shè)置：本教程我們建議使用的是Pytho

如何從Python中提取PDF文檔信息？

好我們可以用Python能夠完成這項工作。下面就能分享幫一下忙該如何用Python解析三個PDF文件，將其轉(zhuǎn)為一列關(guān)鍵字。

設(shè)置：

本教程我們建議使用的是Python3.6.3，當(dāng)然了在實際工作中你是可以在用任何你喜歡的Python版本，只要你它接受要用的庫就行。

不需要按裝200元以內(nèi)Python庫：

PyPDF2（用于將最簡單基于組件文本的PDF文件轉(zhuǎn)為Python可讀的文本）

Textract（主要是用于將PDF掃描文件轉(zhuǎn)為Python可讀的文本）

Nltk（主要是用于清理短語、將短語轉(zhuǎn)為關(guān)鍵字）

是可以通過200元以內(nèi)命令行按裝這些庫：

pipinstallPyPDF2

condainstalltextract

cprofileinstallnltk

這樣我們就安裝好了解析PDF文件所需的庫，必須得必須保證你的PDF文件放到你編寫腳本所在的文件夾中。

啟動時編輯器，開始敲代碼吧！

不過在此之前：導(dǎo)入庫

第4步：讀取PDF文件

步驟3：將文本轉(zhuǎn)換為關(guān)鍵字

現(xiàn)在我們就將手中的PDF文件能保存是為列表，是可以按自己的需要不使用了。如果不是想讓PDF可收索，也可以題大量文件并且聚類分析，還可以不將能夠得到的列表保存在電子表格中。

用來Python實現(xiàn)PDF內(nèi)容其他提取在內(nèi)遍歷數(shù)組內(nèi)容。

具體看基于參考我們甫義工作室寫的文章如下鏈接：

《Python數(shù)據(jù)采集-多PDF文檔進行關(guān)鍵字?jǐn)?shù)據(jù)檢索》

_articleamptimestamp1569413004ampreq注冊id2019092520032301002607708102163DEEampgroup賬號6581260685420790286

在工具欄里有個選擇文本工具，一般是在手型工具旁邊，點看看，你選擇你要選擇類型的文本，右鍵中,選擇圖片文件夾，或再ctric

是因為你的PDF是掃描系統(tǒng)或圖片生成，其中的文字是圖片而非文本，

好象的轉(zhuǎn)換軟件讀不出來圖片中的文字，因此

轉(zhuǎn)換成成word后沒有文字了。

僅有動用OCR（光學(xué)字符識別）技術(shù)才能將非文本格式的文字識別出來，但市面上常見的這類

裝換工具OCR識別成功率都不高，故會出現(xiàn)像你這樣的轉(zhuǎn)換后沒有文字現(xiàn)象不在少數(shù)。

如果你能找到識別率很高的OCR工具，要不然想所有的再提取PDF中的文字，太難了。