使用pdfplumber框架解析pdf莲组,具備提取表格的功能
PDF詳細(xì)資料
https://smallpdf.com
pdfplumber
對(duì)應(yīng)的github地址:
https://github.com/jsvine/pdfplumber
pdfplumber是在pdfminer的基礎(chǔ)上構(gòu)建的
pdfminer
對(duì)應(yīng)的github地址:
https://github.com/euske/pdfminer
對(duì)應(yīng)文檔:
https://euske.github.io/pdfminer/
遇到一個(gè)需求:需要將pdf中的表格數(shù)據(jù)剔除掉,獲取到純文本媚创。
使用pdfplumber可以直接獲取到表格中的數(shù)據(jù)氛堕,對(duì)應(yīng)文檔具有詳細(xì)的介紹苍柏。
對(duì)這需求有一個(gè)解決思路腾啥,可以使用pdfplumber獲取文本所在區(qū)域和表格所在區(qū)域比較霜旧,檢查文本所在區(qū)域是否在表格區(qū)域內(nèi)來排除表格數(shù)據(jù),剩下的就是剔除的數(shù)據(jù)了界阁。
# 獲取所有字符數(shù)組侯繁,帶有位置坐標(biāo)信息,空格或換行分割成不同的數(shù)組
words = page.extract_words()
# 獲取所有表格數(shù)組,帶有位置坐標(biāo)信息
tabs = page.find_tables()