1. 判斷句子的相似度:
獨(dú)熱編碼可以將單詞向量化,而如果能夠做到句子的向量化俯艰,就可以通過(guò)判斷兩個(gè)向量的余弦盒犹,來(lái)評(píng)估相似度:余弦越接近1懂更,越相近,相反接近0則相背離
很容易想到急膀,可以將獨(dú)熱編碼后的每個(gè)單詞的向量做為一個(gè)元素沮协,去組成句子從而完成句子的向量化,但是問(wèn)題在于脖阵,繁復(fù)的編碼會(huì)造成存儲(chǔ)空間的要求大皂股,在一定程度上會(huì)影響性能。
我們考慮將獨(dú)熱編碼改為數(shù)字編碼命黔,如此一來(lái)呜呐,我們可以成功地將語(yǔ)句進(jìn)行一個(gè)不太耗費(fèi)存儲(chǔ)空間的編碼和映射。但對(duì)于不同的語(yǔ)句悍募,顯然可以看出蘑辑,他們的轉(zhuǎn)換標(biāo)準(zhǔn)不統(tǒng)一,需要將他們映射到同一維度上才可以比較坠宴。
我們認(rèn)為洋魂,當(dāng)一個(gè)單詞在一句話中反復(fù)出現(xiàn)多次時(shí),對(duì)于這個(gè)句子喜鼓,這個(gè)詞可能比較重要副砍。那么,當(dāng)兩個(gè)句子的關(guān)鍵詞庄岖,也就是重復(fù)次數(shù)多的詞都比較一致時(shí)豁翎,就可以大致判定兩個(gè)句子語(yǔ)義近似。
如果一個(gè)字或者單詞在某個(gè)語(yǔ)句或者文章中出現(xiàn)的頻率高隅忿,而在其他文章中很少出現(xiàn)心剥,就可以認(rèn)為這個(gè)字或者單詞對(duì)該語(yǔ)句或者文章很重要,也可以說(shuō)這個(gè)字或者單詞具有很好的區(qū)分能力背桐,反之則無(wú)關(guān)緊要优烧。
TF:(詞頻)一個(gè)詞在一句話中出現(xiàn)的頻率
TF=某詞出現(xiàn)次數(shù)/總詞匯數(shù)
IDF:逆向文件頻率,衡量詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中普遍程度的指標(biāo)
如果在整個(gè)語(yǔ)料庫(kù)中包含某個(gè)單詞的文章越少链峭,就說(shuō)明該單詞在整個(gè)語(yǔ)料庫(kù)中具有很好的區(qū)分能力畦娄,這個(gè)單詞的IDF指標(biāo)就越大。
IDF=Log(語(yǔ)料庫(kù)中的文章總數(shù)/1+出現(xiàn)該單詞的文章數(shù))
最終,TF-IDF的值就是TF*IDF
我們可以利用TF-IDF算法與余弦相似度相結(jié)合計(jì)算出文本相似度纷责,幫助優(yōu)化算法捍掺。
語(yǔ)義理解
- 單向預(yù)測(cè):一句話中mask掉一部分然后從前向后或是從后向前進(jìn)行預(yù)測(cè)
- 雙向預(yù)測(cè):為了更完整地理解語(yǔ)句的予以撼短,把從前向后和從后向前兩個(gè)預(yù)測(cè)拼接到一起
- 上下文預(yù)測(cè):【全向預(yù)測(cè)】--Transformer 模型-核心為聚焦機(jī)制再膳,對(duì)于一個(gè)語(yǔ)句可以同時(shí)啟用多個(gè)聚焦點(diǎn),不必局限于是從前向后還是從后向前
BERT: pre-training of deep bidirectional transformers for language understanding【聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示】 - 預(yù)訓(xùn)練:
特征分析 - 數(shù)據(jù)預(yù)處理:解決不屬于同一量綱升薯、信息冗余莱褒、等性特征不能直接使用、存在缺失覆劈、信息利用率低等問(wèn)題
- 特征選擇:
考慮特征是否發(fā)散:如果一個(gè)特征不發(fā)散-比如說(shuō)方差接近于0保礼,那么這個(gè)樣本在這個(gè)特征上基本沒(méi)有差異,所以這個(gè)特征對(duì)樣本的區(qū)分也沒(méi)有什么用
特征與目標(biāo)的相關(guān)性:與目標(biāo)相關(guān)性高的特征责语,應(yīng)當(dāng)優(yōu)先選擇 - 特征選擇的方法:
過(guò)濾法filter:按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分炮障,設(shè)定閾值或者待選擇閾值的個(gè)數(shù),選擇特征坤候。
包裝發(fā)wrapper:根據(jù)目標(biāo)函數(shù)-通常是預(yù)測(cè)效果評(píng)分胁赢,每次選擇若干特征,或者排除若干特征白筹。
潛入發(fā)embedded:先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練智末,得到各個(gè)特征的權(quán)值系數(shù)谅摄,根據(jù)系數(shù)從大到小選擇特征。 - 降維
由于特征矩陣可能過(guò)大系馆,導(dǎo)致計(jì)算量大送漠,訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題,因此降低特征矩陣維度也是必不可少的由蘑。常見(jiàn)的降維方法:主成分分析法(PCA)和線性判別分析(LDA)闽寡。
PCA和LDA有很多的相似點(diǎn),其本質(zhì)是要將原始的樣本映射到維度更低的樣本空間中尼酿,但是PCA和LDA的映射目標(biāo)不一樣:PCA是為了讓映射后的樣本具有最大的發(fā)散性爷狈;而LDA是為了讓映射后的樣本有最好的分類性能。所以說(shuō)PCA是一種無(wú)監(jiān)督的降維方法裳擎,而LDA是一種有監(jiān)督的降維方法涎永。
參考資料
[1][NLP自然語(yǔ)言處理]谷歌BERT模型深度解析
[2]機(jī)器學(xué)習(xí)中,有哪些特征選擇的工程方法鹿响?