Neil Zhu商玫,簡書ID Not_GOD,University AI 創(chuàng)始人 & Chief Scientist袭异,致力于推進世界人工智能化進程。制定并實施 UAI 中長期增長戰(zhàn)略和目標扁远,帶領(lǐng)團隊快速成長為人工智能領(lǐng)域最專業(yè)的力量刻像。
作為行業(yè)領(lǐng)導者并闲,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團), DL Center(深度學習知識中心全球價值網(wǎng)絡(luò)),AI growth(行業(yè)智庫培訓)等溜徙,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分犀填。此外,他還參與或者舉辦過各類國際性的人工智能峰會和活動图贸,產(chǎn)生了巨大的影響力冕广,書寫了60萬字的人工智能精品技術(shù)內(nèi)容,生產(chǎn)翻譯了全球第一本深度學習入門書《神經(jīng)網(wǎng)絡(luò)與深度學習》沟优,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載睬辐。曾經(jīng)受邀為國內(nèi)頂尖大學制定人工智能學習規(guī)劃和教授人工智能前沿課程宾肺,均受學生和老師好評爱榕。
coursera Text Mining and Analytics
文本挖掘和分析
- 文本挖掘近似于文本分析
- 將文本數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量信息 或者 可以作用的知識
- 最小化人工成本
- 供可選的決策判定
- 與文本檢索相關(guān)坡慌,這是所有文本挖掘系統(tǒng)的基本組成部分
- 信息檢索可以看做是文本挖掘的前期處理
- 文本檢索對知識的生成(provenance)有用
文本數(shù)據(jù)和非文本數(shù)據(jù)的比對:
人類作為主觀的接收器
Real World —(sense)—> Sensor —(report)—>Data
文本數(shù)據(jù)來自于人類的創(chuàng)造性工作(當然也可能是一些內(nèi)容的復制和再創(chuàng)作洪橘,在眾多的內(nèi)容產(chǎn)生的社交網(wǎng)站上,正是對應著上圖的最下面的場景)渣玲。首先創(chuàng)作弟晚,然后形成人與人之間的交互(通過文本數(shù)據(jù)本身的媒介,用戶之間形成了較為深入的關(guān)聯(lián))枚钓,每個個體作為一個信息的接受器瑟押,根據(jù)已經(jīng)獲得的文本信息加上自己對某些問題或者事件的思考,最終產(chǎn)生新的內(nèi)容嫩舟。這個系統(tǒng)處于一個不斷地迭代和重復循環(huán)的過程之中怀偷。
數(shù)據(jù)挖掘的一般性問題
在數(shù)據(jù)挖掘這個大的領(lǐng)域中,可以看到有各種各樣的數(shù)據(jù)產(chǎn)生源椎工,通過不同的接收器獲得真實世界的反應(表現(xiàn)在不同的數(shù)據(jù),有數(shù)值的镰绎,分類的木西,關(guān)系的,甚至視頻數(shù)據(jù)和文本數(shù)據(jù))吗讶,在我看來,這些數(shù)據(jù)內(nèi)在是具有不斷深化的進程照皆,從簡單到復雜,從單層到多層昭卓,這種復雜性也反映了世界的真相(我們讀過的書瘟滨,實際上就是人類思想的匯聚和深化,這就是文本數(shù)據(jù)棘手的地方倒淫,相比于圖像和視頻數(shù)據(jù)相對局部的關(guān)聯(lián)性,一篇文章的詞詞相關(guān)性遠遠超過了前面這幾類數(shù)據(jù)敌土,而電影這樣的數(shù)據(jù)运翼,與文本數(shù)據(jù)類似,只是構(gòu)成的基本要素不同犬金,這里揣測一下六剥,今后 deeplearning 應該會應用在對視頻內(nèi)容的理解上)
數(shù)據(jù)產(chǎn)生后峰伙,將這些數(shù)據(jù)丟給各類數(shù)據(jù)挖掘系統(tǒng),可以得到相對應的可以作用的知識
文本挖掘的問題
一般來說策彤,這些任務(wù)往往會綜合多種數(shù)據(jù)進行匣摘,比如說通過對有內(nèi)在關(guān)聯(lián)的非文本的數(shù)據(jù)和文本數(shù)據(jù)的挖掘,我們得到了某一特定領(lǐng)域下的可應用的知識庞瘸,借助這些發(fā)現(xiàn)去對真實世界中的問題進行解釋和理解赠叼。
文本挖掘和分析的領(lǐng)域概貌
這張圖說明了這兩類數(shù)據(jù)之間的關(guān)系违霞,已經(jīng)整個文本挖掘和分析的過程买鸽。
首先看到非文本信息可以直接用來推斷真實世界中的一些狀態(tài)贯被,非文本信息作為一個上下文的信息可以在語言的知識發(fā)現(xiàn)、文本數(shù)據(jù)內(nèi)容的挖掘和對觀察者(用戶)的信息進行發(fā)現(xiàn)弹砚。最終形成對真實世界的完整的認識
本課程覆蓋的話題
主要的任務(wù)有:
- 自然語言處理和文本的表示
- 詞的關(guān)聯(lián)性挖掘及分析
- 話題的挖掘和分析
- 觀點挖掘和情感分析
- 基于文本的預測