《矩陣方法在數(shù)據(jù)挖掘及模式識別中的使用》讀書筆記1

感想

這是一本奇書爱态,第一章沒有什么廢話谭贪,全部都是干貨。奇書有幾種锦担,比如“大一統(tǒng)理論”俭识,把許多看似并不直接相關(guān)的部分,站在一個更高的抽象層次洞渔,用一個無比簡潔的總結(jié)套媚,全部統(tǒng)一起來,讓人感到醍醐灌頂磁椒,“茅廁”頓開堤瘤。比如之前看過的一本《微積分五講》就是這種書,以后有時間專門對它寫個讀書筆記浆熔。<br />
而這本書本辐,是另一種“奇”。作者從現(xiàn)實(shí)生活中的實(shí)例切入医增,并將之轉(zhuǎn)化為一個數(shù)學(xué)的問題(矩陣方法)慎皱,之所以稱之為奇,實(shí)在是因?yàn)檫@樣的書叶骨,太少見了(或者是我太孤陋寡聞了)茫多。這種方式是無比親切的,人認(rèn)識世界的規(guī)律從具體上升到抽象忽刽,或者說的“機(jī)器學(xué)習(xí)”一點(diǎn)天揖,人腦如果沒有大量的實(shí)例來學(xué)習(xí),不足以從中獲取到模式跪帝。但是我們看到過太多的數(shù)學(xué)書今膊,上來就是公式、定義伞剑、定理万细、引理、推論1纸泄、推論2赖钞,寫的就跟一個字典一樣。即使邏輯再嚴(yán)密聘裁,體系再完美雪营,作為教科書而言,連廁紙都不如衡便。<br />

章節(jié)結(jié)構(gòu)


這本書主要有3個部分献起,第一部分是一些線性代數(shù)的基礎(chǔ)知識洋访,其中第一章是3個實(shí)際問題的概述,單刀直入谴餐,讓我們一上來就能十分直觀地感受到矩陣方法在現(xiàn)實(shí)問題中的使用姻政,這些示例問題會在第二部分的時候展開討論,而其中需要的線性代數(shù)基礎(chǔ)知識則在第一部分剩下的章節(jié)中集中討論岂嗓。

第一部分:線性代數(shù)有什么用汁展,為什么需要矩陣分解

★向量和矩陣如何用在數(shù)據(jù)挖掘和模式識別領(lǐng)域(概述)

名詞解釋

Data Mining:the science of extracting useful information from large data sets
Pattern Recognition:the act of taking in raw data and making an action based on the ‘category’ of the pattern”
應(yīng)用領(lǐng)域:電子商務(wù)、搜索引擎厌殉、生物信息學(xué)食绿、信息檢索
學(xué)科交叉:computer science, statistics and data analysis, linear algebra, and optimization

實(shí)際應(yīng)用的示例

  • 信息檢索(information retrieval)
    作者舉例:
    先選取10個關(guān)鍵詞,然后選取5篇文章

    把每個關(guān)鍵詞在每篇文章中出現(xiàn)的頻率制成一張表

    把這個表抽象成一個矩陣

    假如要查詢“ranking of Web pages”這個關(guān)鍵詞公罕,按照上面那個關(guān)鍵詞表器紧,其實(shí)就對應(yīng)一個查詢向量
    查詢向量,包含ranking of Web pages關(guān)鍵字

    進(jìn)而楼眷,整個查詢的問題铲汪,就變成了 一個數(shù)學(xué)的問題:即從矩陣A中,找出一個向量x罐柳,使得該向量最接近與查詢向量q掌腰。作者說,要解決這類問題硝清,就需要一些距離度量(distance measure)的方法
    為什么需要矩陣分解
    在現(xiàn)實(shí)中,Key Words的數(shù)量十分巨大转晰,達(dá)到10的6次方數(shù)量級芦拿,其結(jié)果就是,A矩陣中查邢,會產(chǎn)生大量的0元素蔗崎,這樣的矩陣被稱為稀疏矩陣(sparse),如果沒有很好的簡化問題的方法扰藕,那么求解的過程即使對于計(jì)算機(jī)而言也將是十分漫長和痛苦的缓苛,矩陣分解正是人們在深入研究了矩陣的性質(zhì)之后,所發(fā)現(xiàn)的對矩陣進(jìn)行簡化的方法邓深。如果了解了矩陣分解的現(xiàn)實(shí)背景未桥,就知道它的存在是有意義的,節(jié)省了大量的無趣計(jì)算時間芥备,比起某些補(bǔ)品冬耿,它更加實(shí)在地延長我們的生命。明年過年不送禮萌壳,送禮只送矩陣分解亦镶。
    其中一種矩陣分解方法被稱為singular value decomposition (SVD)日月,中文名叫奇異值分解,我也不知道為什么碰巧中文名那么奇異缤骨。爱咬。使用這種方法, 可以進(jìn)行數(shù)據(jù)壓縮(data compression)和檢索增強(qiáng)(retrieval enhancement)
  • 文字識別
    作者舉例
    16*16格內(nèi)的手寫數(shù)字

    小時候都寫過田字格绊起,把一個漢字寫在一個田字格里面精拟,同樣的道理,可以用這樣的格子把文字割開勒庄,劃分區(qū)域串前。田字格可以看成是一個3x3的矩陣,當(dāng)然也可以劃分得更加精細(xì)一點(diǎn)实蔽,變成一個16x16的格子荡碾。
    3可以用一個16行16列的矩陣來表示,也就是說用256個數(shù)字構(gòu)成的矩陣局装,來表示一個手寫的3坛吁,這256個數(shù)字的大小,代表在那個點(diǎn)上的灰度大小铐尚。我們把原來的16行16列表示的3變成1列256行乎芳,此時3可以用一個向量來表示,假如說有1000個手寫3的樣本优俘,那么A矩陣就是一個1000列封断,256行的矩陣,其中每一個列向量爹脾,對應(yīng)一個手寫樣本3帖旨。其中的每一列,張(span)成一個子空間(subspace)灵妨,然后利用線性代數(shù)的知識解阅,計(jì)算這個子空間的近似基(approximate basis)
    這時候,有一份新的手寫樣本泌霍,如何讓計(jì)算機(jī)識別出這個未知的數(shù)字货抄,這個新的數(shù)字假設(shè)為向量b,要判斷b是否是3朱转,其核心就是判斷b是不是在原先通過1000個樣本所得出的“手寫3”的“向量空間”里面蟹地。用接近數(shù)學(xué)的語言來說:是否可以通過之前統(tǒng)計(jì)數(shù)據(jù)得來的手寫3的近似基來得到一個線性組合,使得b這個向量近似可以用這個線性組合來表示出藤为,如果可以锈津,那么可以認(rèn)為這個新的手寫數(shù)字就是3。(這里很繞口凉蜂,本質(zhì)上就是剛才加粗的話)
    判斷兩者差值是否足夠小
  • 搜索引擎
    作者示例:
    谷歌的搜索引擎的核心就是矩陣運(yùn)算
    網(wǎng)頁與網(wǎng)頁之間的關(guān)系圖

    上圖的關(guān)系抽象成矩陣

    如果兩個元素之間有關(guān)聯(lián)琼梆,那么就不為0性誉,否則就為0。比如說4茎杂,比較高冷错览,只進(jìn)不出,所以第4列都為0煌往。另外自身和自身也定為0倾哺,這樣該矩陣的對角線上也都是為0。
    一個巴掌都有大小刽脖,網(wǎng)頁與網(wǎng)頁之間當(dāng)然有質(zhì)量上的差異羞海,一個好的搜索引擎就需要定量地把這種差異描述出來,谷歌通過解決P矩陣特征值的問題曲管,來完成這個評級(rank)却邓。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市院水,隨后出現(xiàn)的幾起案子腊徙,更是在濱河造成了極大的恐慌,老刑警劉巖檬某,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撬腾,死亡現(xiàn)場離奇詭異,居然都是意外死亡恢恼,警方通過查閱死者的電腦和手機(jī)民傻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來场斑,“玉大人漓踢,你說我怎么就攤上這事『汪ぃ” “怎么了彭雾?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵碟刺,是天一觀的道長锁保。 經(jīng)常有香客問我,道長半沽,這世上最難降的妖魔是什么爽柒? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮者填,結(jié)果婚禮上浩村,老公的妹妹穿的比我還像新娘。我一直安慰自己占哟,他們只是感情好心墅,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布酿矢。 她就那樣靜靜地躺著,像睡著了一般怎燥。 火紅的嫁衣襯著肌膚如雪瘫筐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天铐姚,我揣著相機(jī)與錄音策肝,去河邊找鬼。 笑死隐绵,一個胖子當(dāng)著我的面吹牛之众,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播依许,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼棺禾,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了悍手?” 一聲冷哼從身側(cè)響起帘睦,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎坦康,沒想到半個月后竣付,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡滞欠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年古胆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片筛璧。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡逸绎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出夭谤,到底是詐尸還是另有隱情棺牧,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布朗儒,位于F島的核電站颊乘,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏醉锄。R本人自食惡果不足惜乏悄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望恳不。 院中可真熱鬧檩小,春花似錦、人聲如沸烟勋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至阻肿,卻和暖如春家妆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背冕茅。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工伤极, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人姨伤。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓哨坪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親乍楚。 傳聞我的和親對象是個殘疾皇子当编,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容