Apache Tika使用報(bào)告

實(shí)驗(yàn)對象:Apache Tika
實(shí)驗(yàn)?zāi)康模和ㄟ^嘗試使用Apache Tika進(jìn)行文件格式轉(zhuǎn)換笆包,加深對搜索引擎的理解和認(rèn)識


目錄

  1. Apache Tika簡介
  2. 配置Apache Tika運(yùn)行環(huán)境
  3. 用GUI圖形界面進(jìn)行文件格式轉(zhuǎn)換的嘗試
  4. 用命令行使用Tika
  5. 在java工程中使用Tika

1. Apache Tika 簡介


Apache Tika是一個(gè)用java編寫的內(nèi)容檢測和分析框架瑰抵,是ApacheLucene項(xiàng)目的子項(xiàng)目。它能夠檢測很多不同文件類型的文件,并提取文件的元數(shù)據(jù)和結(jié)構(gòu)化文本房官。它提供了一個(gè)命令行界面和一個(gè)GUI界面袖牙,還提供一個(gè)java庫∥衷担可用于自然語言處理過程中文本內(nèi)容的抽取躯枢,以及搜索引擎進(jìn)行數(shù)據(jù)抓取后的處理步驟。

Tika誕生歷程

Tika 架構(gòu)

Tika 體系結(jié)構(gòu)的四個(gè)模塊

  • 語言檢測機(jī)制
  • MIME檢測機(jī)制
  • Parser接口
  • Tika Facade類

Tika主要功能

  • 文檔類型檢測
  • 內(nèi)容提取
  • 元數(shù)據(jù)提取
  • 語言檢測

2. 配置Apache Tika運(yùn)行環(huán)境

驗(yàn)證java環(huán)境


如果沒有配置java環(huán)境槐臀,請下載配置Java JDK
下載Tika的源代碼Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar

Tika官網(wǎng)的下載頁面

在cmd里鍵入命令打開GUI圖形界面


命令行打開tika

3. 用GUI圖形界面進(jìn)行文件格式轉(zhuǎn)換的嘗試

編寫一個(gè)二進(jìn)制文件tika_test.txt放在C:\目錄下


tika_test.txt

把tika_test.txt拖進(jìn)gui里锄蹂,默認(rèn)顯示提取的元數(shù)據(jù)

MetaData

解析成Formatted Text


Formatted Text

解析成Plain text


Plain text

提取Main content 居然是空的
Main content

解析成XML
xml

解析成json


json

4. 用命令行使用Tika

先來查看Tika命令行的基本參數(shù)


基本參數(shù)

用命令把doc解析為text


doc
text

5. 在java工程中使用Tika

在Eclipse中新建Java項(xiàng)目,并導(dǎo)入tika-app-1.14.jar


編寫Test.java

import org.apache.tika.Tika;

import java.io.*;

/**
 * Created by Administrator on 2017/5/15.
 */
public class Test {
    public static void main(String[] args) throws Exception{
        //二進(jìn)制文件路徑
        String fileName="c:/tika_test.txt";

        //二進(jìn)制文件
        File file1 = new File(fileName);

        //通過tika獲取文件內(nèi)容
        Tika tika = new Tika();
        String filecontent = tika.parseToString(file1);

        //打印文件內(nèi)容
        System.out.println("Extracted Content: " + filecontent);

        try{

            //要轉(zhuǎn)換到的文件
            File file =new File("c:/ddd.doc");

            //文件不存在就新建
            if(!file.exists()){
                file.createNewFile();
            }

            //把二進(jìn)制文件內(nèi)容寫入doc文件
            FileWriter fw = new FileWriter(file.getAbsoluteFile());
            BufferedWriter bw = new BufferedWriter(fw);
            bw.write(filecontent);
            bw.close();

            System.out.println("Done");

        }catch(IOException e){
            e.printStackTrace();
        }

    }
}

運(yùn)行程序

在Eclipse中運(yùn)行

生成ddd.doc,如下圖



生成的doc文件

參考鏈接:
Apache Tika from EN-Wikipedia
Tika常見格式文件抽取內(nèi)容并做預(yù)處理
Apache Tika:通用的內(nèi)容分析工具
cmd中java -jar *.jar 提示Unable to access jarfile *.jar或Windows不能用鼠標(biāo)雙擊運(yùn)行jar文件怎么辦解決方案
TIKA環(huán)境配置
相關(guān)鏈接:
Apache Tika 官網(wǎng)
Apache Tika Wiki
Apache Tika in Github
Book Tika in Action
Natural Language Processing with Python
潛在語義索引

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末水慨,一起剝皮案震驚了整個(gè)濱河市得糜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌晰洒,老刑警劉巖朝抖,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異谍珊,居然都是意外死亡治宣,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進(jìn)店門砌滞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來侮邀,“玉大人,你說我怎么就攤上這事贝润“砑耄” “怎么了?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵打掘,是天一觀的道長华畏。 經(jīng)常有香客問我鹏秋,道長,這世上最難降的妖魔是什么亡笑? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任拼岳,我火速辦了婚禮,結(jié)果婚禮上况芒,老公的妹妹穿的比我還像新娘惜纸。我一直安慰自己,他們只是感情好绝骚,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布耐版。 她就那樣靜靜地躺著,像睡著了一般压汪。 火紅的嫁衣襯著肌膚如雪粪牲。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天止剖,我揣著相機(jī)與錄音腺阳,去河邊找鬼。 笑死穿香,一個(gè)胖子當(dāng)著我的面吹牛亭引,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播皮获,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼焙蚓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了洒宝?” 一聲冷哼從身側(cè)響起购公,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎雁歌,沒想到半個(gè)月后宏浩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡靠瞎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年比庄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片较坛。...
    茶點(diǎn)故事閱讀 39,731評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡印蔗,死狀恐怖扒最,靈堂內(nèi)的尸體忽然破棺而出丑勤,到底是詐尸還是另有隱情,我是刑警寧澤吧趣,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布法竞,位于F島的核電站耙厚,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏岔霸。R本人自食惡果不足惜薛躬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望呆细。 院中可真熱鬧型宝,春花似錦、人聲如沸絮爷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坑夯。三九已至岖寞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間柜蜈,已是汗流浹背仗谆。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留淑履,地道東北人隶垮。 一個(gè)月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像秘噪,于是被迫代替她去往敵國和親岁疼。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理缆娃,服務(wù)發(fā)現(xiàn)捷绒,斷路器,智...
    卡卡羅2017閱讀 134,652評論 18 139
  • 目錄 1.Apache Tika簡介 2.Apache Tika配置安裝 3.Apache Tika使用體驗(yàn) 1....
    Sol_elY閱讀 2,288評論 0 2
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 46,806評論 6 342
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,079評論 25 707
  • 第四十七章 謝心宜來到譚書愷面前贯要,她看到了一個(gè)絕望暖侨、迷茫、無助崇渗、可憐的男人字逗,這個(gè)形象是他們十年婚姻當(dāng)中從未有過的。...
    冬妮婭閱讀 381評論 0 0