1.信息度量
信息就是不確定性的多少,信息就是要減少不確定性奸忽;
熵: 信息的混雜程度堕伪,越大,信息越雜月杉,越不純刃跛;
條件熵: 一個信息確定的條件下抠艾,另外一個信息不確定度的減少量苛萎;
互信息: 在一個信息的條件下,為了是另外一個信息不確定度減少所需要提供的信息量检号;
相對熵: 衡量兩個函數(shù)值為正數(shù)的函數(shù)的相關(guān)性腌歉。
2.指紋信息
指紋: 每段信息包括文字,圖片齐苛,音頻翘盖,等都可以對應(yīng)一組不太長的隨機數(shù)
偽隨機數(shù):壓縮
基于加密的偽隨機數(shù):密碼
集合的判定,文章凹蜂,網(wǎng)頁的判定馍驯,視頻的判定
指紋可能重復(fù)阁危,但可能性很小
相似哈希:詞,權(quán)重汰瘫,指紋狂打,二進制的結(jié)合(提供了一種思路)
3.最大熵模型
最大熵原理: 保留全部的不確定性,讓風(fēng)險降到最谢烀帧趴乡;
最大熵模型: 在所有滿足約束條件的模型中選出熵最大的模型;
模型學(xué)習(xí): 任何一組不自相矛盾的信息蝗拿,最大熵模型存在并且唯一晾捏,都具有相同的形式,指數(shù)形式哀托;
特點: 能同時滿足成千上萬的中不同條件的模型(有效的組合很多特征)
參數(shù)訓(xùn)練: 對數(shù)似然函數(shù)求極大
4.期望最大
如果模型的變量都是觀測變量惦辛,用極大似然估計或貝葉斯估計
如果存在隱含變量,用EM迭代萤捆,最大后驗概率
典型:kmeans聚類裙品,隱馬的參數(shù)訓(xùn)練,最大熵模型的訓(xùn)練
特點: 局部最優(yōu)俗或,計算速度慢
5.散列表與布隆過濾器
散列表的核心:哈希函數(shù)hashcode(),equals()函數(shù)市怎;
散列表的特點:時間復(fù)雜度o(1),浪費空間,沖突辛慰;
布隆過濾器核心: 一組二進制數(shù)和隨機映射函數(shù)区匠;
布隆過濾器的特點: 時間復(fù)雜度o(1),節(jié)約空間帅腌,到存在錯誤率
6.文本分類
相似性: 余弦定理驰弄,距離
方法: k近鄰思想,自底向上的兩兩合并速客,EM迭代戚篙,奇異值分解;
技巧: 計算時存儲重復(fù)計算的變量溺职,只考慮非零元素岔擂,刪除虛詞
余弦定理和奇異分解:余弦定理多次迭代,計算量大浪耘,消耗資源多乱灵;svd無需多次迭代,時間短七冲,但存儲空間需求大痛倚,適合超大規(guī)模分類;建議svd粗分類澜躺,余弦定理細分類
TF-IDF解決兩個重要問題:詞的預(yù)測能力越強蝉稳,權(quán)重越大抒蚜;停止詞的權(quán)重為零
7.隱馬爾可夫
馬爾可夫假設(shè): t時刻的狀態(tài)只取決于t-1時刻
馬爾可夫鏈: 狀態(tài)鏈
隱馬模型: 初始概率分布,狀態(tài)轉(zhuǎn)移概率分布耘戚,觀測概率分布(馬爾可夫假設(shè)削锰,觀測獨立)
3個問題:
參數(shù)估計-baum-uelch算法
計算概率-直接,前向毕莱,后向算法
預(yù)測狀態(tài)-維特比算法(動態(tài)規(guī)劃)
8.貝葉斯網(wǎng)絡(luò)
是馬爾可夫鏈的推廣(鏈狀-拓撲)
又稱信念網(wǎng)絡(luò): 弧+可信度
訓(xùn)練: 結(jié)構(gòu)和參數(shù)訓(xùn)練器贩,交叉進行
方法: 貪心算法,蒙卡朋截,互信息
9.條件隨機場
特點:觀測值可能和前后的狀態(tài)都有關(guān)
條件隨機場是無向圖蛹稍,貝葉斯網(wǎng)絡(luò)是有向圖
核心:找到符合所有邊緣分布的最大熵模型
10.有限狀態(tài)機和動態(tài)規(guī)劃
有限狀態(tài)機: 開始,終止狀態(tài)部服,有向弧唆姐,條件
常見: ?建立狀態(tài)機,已知狀態(tài)機匹配字符串
區(qū)別: 基于概率的有限狀態(tài)機和離散馬爾可夫鏈等效
動態(tài)規(guī)劃: 把全程路徑最短鎖定到局部路徑最短