目錄
1.Apache Tika簡介
2.Apache Tika配置安裝
3.Apache Tika使用體驗(yàn)
1.Apache Tika簡介
TiKa
Tika是一個(gè)內(nèi)容分析工具,自帶全面的parser工具類郭脂,能解析基本所有常見格式的文件嚷节,得到文件的metadata旭等,content等內(nèi)容,返回格式化信息『阑澹總的來說可以作為一個(gè)通用的解析工具吊圾。特別對于搜索引擎的數(shù)據(jù)抓去和處理步驟有重要意義达椰。
1.1 功能簡介
偵測文檔的類型,字符編碼项乒,語言啰劲,等其他現(xiàn)有文檔的屬性。
提取結(jié)構(gòu)化的文字內(nèi)容檀何。
該項(xiàng)目的目標(biāo)使用群體主要為搜索引擎以及其他內(nèi)容索引和分析工具蝇裤。編程語言為Java.
1.2 支持的文檔格式
目前支持的文檔格式和對應(yīng)的解析類庫如下:
捕獲.PNG
獲.PNG
2.Apache Tika配置安裝
TiKa版本
TiKa提供了一個(gè)命令行界面和一個(gè)GUI界面,還提供一個(gè)java庫频鉴。我選擇下載了app版栓辜。下載地址
輸入命令java -jar tika-app-1.15.jar --gui
打開gui圖形管理界面:
圖片.png
新建待分析文本tika+text.txt
圖片.png
Metadata:
圖片.png
Formattedtext:
圖片.png
plain text:
圖片.png
Structured text:
圖片.png
由于未知原因。我的json與main content沒有提取出來:
圖片.png
圖片.png
還可以使用java -jar tika-app-1.15.jar --text *.doc
命令進(jìn)行文本格式的轉(zhuǎn)換垛孔,text為要轉(zhuǎn)變的格式藕甩,*.doc為你想要轉(zhuǎn)變的文本的物理位置。