文本挖掘和分析初步

Neil Zhu商玫,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist袭异,致力于推進世界人工智能化進程。制定并實施 UAI 中長期增長戰(zhàn)略和目標扁远,帶領(lǐng)團隊快速成長為人工智能領(lǐng)域最專業(yè)的力量刻像。
作為行業(yè)領(lǐng)導者并闲,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團), DL Center(深度學習知識中心全球價值網(wǎng)絡(luò)),AI growth(行業(yè)智庫培訓)等溜徙,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分犀填。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動图贸,產(chǎn)生了巨大的影響力冕广,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學習入門書《神經(jīng)網(wǎng)絡(luò)與深度學習》沟优,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載睬辐。曾經(jīng)受邀為國內(nèi)頂尖大學制定人工智能學習規(guī)劃和教授人工智能前沿課程宾肺,均受學生和老師好評爱榕。

coursera Text Mining and Analytics

文本挖掘和分析

  1. 文本挖掘近似于文本分析
  2. 將文本數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量信息 或者 可以作用的知識
    1. 最小化人工成本
    2. 供可選的決策判定
  3. 與文本檢索相關(guān)坡慌,這是所有文本挖掘系統(tǒng)的基本組成部分
    1. 信息檢索可以看做是文本挖掘的前期處理
    2. 文本檢索對知識的生成(provenance)有用

文本數(shù)據(jù)和非文本數(shù)據(jù)的比對:

人類作為主觀的接收器
Real World —(sense)—> Sensor —(report)—>Data

Paste_Image.png

文本數(shù)據(jù)來自于人類的創(chuàng)造性工作(當然也可能是一些內(nèi)容的復制和再創(chuàng)作洪橘,在眾多的內(nèi)容產(chǎn)生的社交網(wǎng)站上,正是對應著上圖的最下面的場景)渣玲。首先創(chuàng)作弟晚,然后形成人與人之間的交互(通過文本數(shù)據(jù)本身的媒介,用戶之間形成了較為深入的關(guān)聯(lián))枚钓,每個個體作為一個信息的接受器瑟押,根據(jù)已經(jīng)獲得的文本信息加上自己對某些問題或者事件的思考,最終產(chǎn)生新的內(nèi)容嫩舟。這個系統(tǒng)處于一個不斷地迭代和重復循環(huán)的過程之中怀偷。

數(shù)據(jù)挖掘的一般性問題

Paste_Image.png

在數(shù)據(jù)挖掘這個大的領(lǐng)域中,可以看到有各種各樣的數(shù)據(jù)產(chǎn)生源椎工,通過不同的接收器獲得真實世界的反應(表現(xiàn)在不同的數(shù)據(jù),有數(shù)值的镰绎,分類的木西,關(guān)系的,甚至視頻數(shù)據(jù)和文本數(shù)據(jù))吗讶,在我看來,這些數(shù)據(jù)內(nèi)在是具有不斷深化的進程照皆,從簡單到復雜,從單層到多層昭卓,這種復雜性也反映了世界的真相(我們讀過的書瘟滨,實際上就是人類思想的匯聚和深化,這就是文本數(shù)據(jù)棘手的地方倒淫,相比于圖像和視頻數(shù)據(jù)相對局部的關(guān)聯(lián)性,一篇文章的詞詞相關(guān)性遠遠超過了前面這幾類數(shù)據(jù)敌土,而電影這樣的數(shù)據(jù)运翼,與文本數(shù)據(jù)類似,只是構(gòu)成的基本要素不同犬金,這里揣測一下六剥,今后 deeplearning 應該會應用在對視頻內(nèi)容的理解上)

數(shù)據(jù)產(chǎn)生后峰伙,將這些數(shù)據(jù)丟給各類數(shù)據(jù)挖掘系統(tǒng),可以得到相對應的可以作用的知識

文本挖掘的問題

Paste_Image.png

一般來說策彤,這些任務(wù)往往會綜合多種數(shù)據(jù)進行匣摘,比如說通過對有內(nèi)在關(guān)聯(lián)的非文本的數(shù)據(jù)和文本數(shù)據(jù)的挖掘,我們得到了某一特定領(lǐng)域下的可應用的知識庞瘸,借助這些發(fā)現(xiàn)去對真實世界中的問題進行解釋和理解赠叼。

文本挖掘和分析的領(lǐng)域概貌

Paste_Image.png

這張圖說明了這兩類數(shù)據(jù)之間的關(guān)系违霞,已經(jīng)整個文本挖掘和分析的過程买鸽。
首先看到非文本信息可以直接用來推斷真實世界中的一些狀態(tài)贯被,非文本信息作為一個上下文的信息可以在語言的知識發(fā)現(xiàn)、文本數(shù)據(jù)內(nèi)容的挖掘和對觀察者(用戶)的信息進行發(fā)現(xiàn)弹砚。最終形成對真實世界的完整的認識

本課程覆蓋的話題

Paste_Image.png

主要的任務(wù)有:

  1. 自然語言處理和文本的表示
  2. 詞的關(guān)聯(lián)性挖掘及分析
  3. 話題的挖掘和分析
  4. 觀點挖掘和情感分析
  5. 基于文本的預測
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末桌吃,一起剝皮案震驚了整個濱河市苞轿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌搬卒,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件摆寄,死亡現(xiàn)場離奇詭異微饥,居然都是意外死亡,警方通過查閱死者的電腦和手機欠橘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評論 3 392
  • 文/潘曉璐 我一進店門肃续,熙熙樓的掌柜王于貴愁眉苦臉地迎上來叉袍,“玉大人,你說我怎么就攤上這事瞧捌。” “怎么了察郁?”我有些...
    開封第一講書人閱讀 163,105評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長稳捆。 經(jīng)常有香客問我麦轰,道長,這世上最難降的妖魔是什么款侵? 我笑而不...
    開封第一講書人閱讀 58,242評論 1 292
  • 正文 為了忘掉前任新锈,我火速辦了婚禮,結(jié)果婚禮上块请,老公的妹妹穿的比我還像新娘拳缠。我一直安慰自己,他們只是感情好海渊,可當我...
    茶點故事閱讀 67,269評論 6 389
  • 文/花漫 我一把揭開白布哲鸳。 她就那樣靜靜地躺著,像睡著了一般朝捆。 火紅的嫁衣襯著肌膚如雪懒豹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,215評論 1 299
  • 那天脸秽,我揣著相機與錄音记餐,去河邊找鬼薇正。 笑死囚衔,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的雕沿。 我是一名探鬼主播,決...
    沈念sama閱讀 40,096評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼肥哎,長吁一口氣:“原來是場噩夢啊……” “哼篡诽!你這毒婦竟也來了榴捡?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,939評論 0 274
  • 序言:老撾萬榮一對情侶失蹤碧信,失蹤者是張志新(化名)和其女友劉穎街夭,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體呈枉,經(jīng)...
    沈念sama閱讀 45,354評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡猖辫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,573評論 2 333
  • 正文 我和宋清朗相戀三年砚殿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片似炎。...
    茶點故事閱讀 39,745評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡贩毕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出辉阶,到底是詐尸還是另有隱情,我是刑警寧澤谆甜,帶...
    沈念sama閱讀 35,448評論 5 344
  • 正文 年R本政府宣布规辱,位于F島的核電站,受9級特大地震影響包券,放射性物質(zhì)發(fā)生泄漏炫贤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,048評論 3 327
  • 文/蒙蒙 一侍郭、第九天 我趴在偏房一處隱蔽的房頂上張望掠河。 院中可真熱鬧,春花似錦唠摹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至斧蜕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間洒闸,已是汗流浹背风钻。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 47,776評論 2 369
  • 正文 我出身青樓囤萤,卻偏偏與公主長得像涛舍,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子富雅,可洞房花燭夜當晚...
    茶點故事閱讀 44,652評論 2 354

推薦閱讀更多精彩內(nèi)容