? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?TIKA實驗報告
1.tika是什么
? ? ? ? Tika 是一個文本內(nèi)容檢測和解析工具贫母,主要功能包括文檔類型檢測耳胎、內(nèi)容提取、元數(shù)據(jù)提取遣臼、語言檢測性置。我覺得就是把文本內(nèi)容可以換成你想要的格式,便于人或計算機識別和讀取揍堰,比如pdf轉成word,把txt轉成json等嗅义。
2.Tika怎么安裝
1.配置java環(huán)境
先去官網(wǎng)下載安裝java jdk屏歹,安裝成功后在本地cmd中輸入java -version會有下圖類似輸出。
檢驗java
2下載Tika
下載Tika的源代碼tika-1.18-src.zip和Tika的jar包tika-app-1.18.jar之碗。
tika-1.18-src.zip
tika-app-1.18.jar
3.Tika怎么使用
在本地cmd中輸入java -jar E:\tika\tika-app-1.18.jar(你的本地taki.jar路徑)--gui蝙眶。會進入Tika的GUI界面。
Tika的GUI界面
之后把你想要解析的東西直接拖進去就行了褪那。默認顯示提取的元數(shù)據(jù)幽纷,你可以在view隨意切換成其他屬性,view中一共有6中博敬。
元數(shù)據(jù)Metadata
Formatted Tex
Plain Text
Main Content
XML
json
4.實驗過程的問題
1.用迅雷下java官網(wǎng)的java jdk會下不了友浸,會報錯,打開之后是亂碼偏窝,之后用百度云下載才成功的收恢。
報錯
亂碼
2.cmd打開tika的gui界面的時候,tika的路徑要是自己本地jar路徑祭往,不然打不開伦意。還有-gui有可能打不開,-g可能打開的快一點硼补,可以去java -jar E:\tika\tika-app-1.18.jar --help 查看相應命令驮肉。
5.實驗總結
從本次實驗中,了解了tika是什么東西和簡單的運用已骇,只是在本地打開和用tika是比較簡單的离钝,不過要用的好還是要多琢磨的。