數(shù)據(jù)分析與NLP

1. 判斷句子的相似度:
獨(dú)熱編碼可以將單詞向量化,而如果能夠做到句子的向量化俯艰,就可以通過(guò)判斷兩個(gè)向量的余弦盒犹,來(lái)評(píng)估相似度:余弦越接近1懂更,越相近,相反接近0則相背離
很容易想到急膀,可以將獨(dú)熱編碼后的每個(gè)單詞的向量做為一個(gè)元素沮协,去組成句子從而完成句子的向量化,但是問(wèn)題在于脖阵,繁復(fù)的編碼會(huì)造成存儲(chǔ)空間的要求大皂股,在一定程度上會(huì)影響性能。
我們考慮將獨(dú)熱編碼改為數(shù)字編碼命黔,如此一來(lái)呜呐,我們可以成功地將語(yǔ)句進(jìn)行一個(gè)不太耗費(fèi)存儲(chǔ)空間的編碼和映射。但對(duì)于不同的語(yǔ)句悍募,顯然可以看出蘑辑,他們的轉(zhuǎn)換標(biāo)準(zhǔn)不統(tǒng)一,需要將他們映射到同一維度上才可以比較坠宴。
我們認(rèn)為洋魂,當(dāng)一個(gè)單詞在一句話中反復(fù)出現(xiàn)多次時(shí),對(duì)于這個(gè)句子喜鼓,這個(gè)詞可能比較重要副砍。那么,當(dāng)兩個(gè)句子的關(guān)鍵詞庄岖,也就是重復(fù)次數(shù)多的詞都比較一致時(shí)豁翎,就可以大致判定兩個(gè)句子語(yǔ)義近似。

image.png
2. TF-IDF算法
如果一個(gè)字或者單詞在某個(gè)語(yǔ)句或者文章中出現(xiàn)的頻率高隅忿,而在其他文章中很少出現(xiàn)心剥,就可以認(rèn)為這個(gè)字或者單詞對(duì)該語(yǔ)句或者文章很重要,也可以說(shuō)這個(gè)字或者單詞具有很好的區(qū)分能力背桐,反之則無(wú)關(guān)緊要优烧。
TF:(詞頻)一個(gè)詞在一句話中出現(xiàn)的頻率

TF=某詞出現(xiàn)次數(shù)/總詞匯數(shù)

IDF:逆向文件頻率,衡量詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中普遍程度的指標(biāo)
如果在整個(gè)語(yǔ)料庫(kù)中包含某個(gè)單詞的文章越少链峭,就說(shuō)明該單詞在整個(gè)語(yǔ)料庫(kù)中具有很好的區(qū)分能力畦娄,這個(gè)單詞的IDF指標(biāo)就越大。

IDF=Log(語(yǔ)料庫(kù)中的文章總數(shù)/1+出現(xiàn)該單詞的文章數(shù))

最終,TF-IDF的值就是TF*IDF
我們可以利用TF-IDF算法與余弦相似度相結(jié)合計(jì)算出文本相似度纷责,幫助優(yōu)化算法捍掺。
語(yǔ)義理解

  • 單向預(yù)測(cè):一句話中mask掉一部分然后從前向后或是從后向前進(jìn)行預(yù)測(cè)
  • 雙向預(yù)測(cè):為了更完整地理解語(yǔ)句的予以撼短,把從前向后和從后向前兩個(gè)預(yù)測(cè)拼接到一起
  • 上下文預(yù)測(cè):【全向預(yù)測(cè)】--Transformer 模型-核心為聚焦機(jī)制再膳,對(duì)于一個(gè)語(yǔ)句可以同時(shí)啟用多個(gè)聚焦點(diǎn),不必局限于是從前向后還是從后向前
    BERT: pre-training of deep bidirectional transformers for language understanding【聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示】
  • 預(yù)訓(xùn)練:
    image.png
    BERT 用了兩個(gè)步驟曲横,試圖去正確地訓(xùn)練模型的參數(shù):第一個(gè)步驟是把一篇文章中喂柒,15% 的詞匯遮蓋,讓模型根據(jù)上下文全向地預(yù)測(cè)被遮蓋的詞禾嫉。假如有 1 萬(wàn)篇文章灾杰,每篇文章平均有 100 個(gè)詞匯,隨機(jī)遮蓋 15% 的詞匯熙参,模型的任務(wù)是正確地預(yù)測(cè)這 15 萬(wàn)個(gè)被遮蓋的詞匯艳吠。通過(guò)全向預(yù)測(cè)被遮蓋住的詞匯,來(lái)初步訓(xùn)練 Transformer 模型的參數(shù)孽椰。第二個(gè)步驟繼續(xù)訓(xùn)練模型的參數(shù):譬如從上述 1 萬(wàn)篇文章中昭娩,挑選 20 萬(wàn)對(duì)語(yǔ)句,總共 40 萬(wàn)條語(yǔ)句黍匾。挑選語(yǔ)句對(duì)的時(shí)候栏渺,其中 210 萬(wàn)對(duì)語(yǔ)句,是連續(xù)的兩條上下文語(yǔ)句锐涯,另外 210 萬(wàn)對(duì)語(yǔ)句磕诊,不是連續(xù)的語(yǔ)句。然后讓 Transformer 模型來(lái)識(shí)別這 20 萬(wàn)對(duì)語(yǔ)句纹腌,哪些是連續(xù)的霎终,哪些不連續(xù)。
    特征分析
  • 數(shù)據(jù)預(yù)處理:解決不屬于同一量綱升薯、信息冗余莱褒、等性特征不能直接使用、存在缺失覆劈、信息利用率低等問(wèn)題
  • 特征選擇:
    考慮特征是否發(fā)散:如果一個(gè)特征不發(fā)散-比如說(shuō)方差接近于0保礼,那么這個(gè)樣本在這個(gè)特征上基本沒(méi)有差異,所以這個(gè)特征對(duì)樣本的區(qū)分也沒(méi)有什么用
    特征與目標(biāo)的相關(guān)性:與目標(biāo)相關(guān)性高的特征责语,應(yīng)當(dāng)優(yōu)先選擇
  • 特征選擇的方法:
    過(guò)濾法filter:按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分炮障,設(shè)定閾值或者待選擇閾值的個(gè)數(shù),選擇特征坤候。
    包裝發(fā)wrapper:根據(jù)目標(biāo)函數(shù)-通常是預(yù)測(cè)效果評(píng)分胁赢,每次選擇若干特征,或者排除若干特征白筹。
    潛入發(fā)embedded:先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練智末,得到各個(gè)特征的權(quán)值系數(shù)谅摄,根據(jù)系數(shù)從大到小選擇特征。
  • 降維
    由于特征矩陣可能過(guò)大系馆,導(dǎo)致計(jì)算量大送漠,訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題,因此降低特征矩陣維度也是必不可少的由蘑。常見(jiàn)的降維方法:主成分分析法(PCA)和線性判別分析(LDA)闽寡。
    PCA和LDA有很多的相似點(diǎn),其本質(zhì)是要將原始的樣本映射到維度更低的樣本空間中尼酿,但是PCA和LDA的映射目標(biāo)不一樣:PCA是為了讓映射后的樣本具有最大的發(fā)散性爷狈;而LDA是為了讓映射后的樣本有最好的分類性能。所以說(shuō)PCA是一種無(wú)監(jiān)督的降維方法裳擎,而LDA是一種有監(jiān)督的降維方法涎永。
參考資料

[1][NLP自然語(yǔ)言處理]谷歌BERT模型深度解析
[2]機(jī)器學(xué)習(xí)中,有哪些特征選擇的工程方法鹿响?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末羡微,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子抢野,更是在濱河造成了極大的恐慌拷淘,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件指孤,死亡現(xiàn)場(chǎng)離奇詭異启涯,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)恃轩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)结洼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人叉跛,你說(shuō)我怎么就攤上這事松忍。” “怎么了筷厘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵鸣峭,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我酥艳,道長(zhǎng)摊溶,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任充石,我火速辦了婚禮莫换,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己拉岁,他們只是感情好坷剧,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著喊暖,像睡著了一般惫企。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上哄啄,一...
    開(kāi)封第一講書(shū)人閱讀 49,816評(píng)論 1 290
  • 那天雅任,我揣著相機(jī)與錄音风范,去河邊找鬼咨跌。 笑死,一個(gè)胖子當(dāng)著我的面吹牛硼婿,可吹牛的內(nèi)容都是我干的锌半。 我是一名探鬼主播,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼寇漫,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼刊殉!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起州胳,我...
    開(kāi)封第一講書(shū)人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤记焊,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后栓撞,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體遍膜,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年瓤湘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瓢颅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡弛说,死狀恐怖挽懦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情木人,我是刑警寧澤信柿,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站醒第,受9級(jí)特大地震影響渔嚷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜淘讥,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一圃伶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦窒朋、人聲如沸搀罢。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)榔至。三九已至,卻和暖如春欺劳,著一層夾襖步出監(jiān)牢的瞬間唧取,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工划提, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留枫弟,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓鹏往,卻偏偏與公主長(zhǎng)得像淡诗,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子伊履,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容