特征轉(zhuǎn)換主要指將原始數(shù)據(jù)中的字段數(shù)據(jù)進(jìn)行轉(zhuǎn)換操作,從而得到適合進(jìn)行算法模型構(gòu)建的輸入數(shù)據(jù)(數(shù)值型數(shù)據(jù))掸宛,在這個(gè)過(guò)程中主要包括但不限于以下幾種數(shù)據(jù)的處理:
? 文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)
? 缺省值填充
? 定性特征屬性啞編碼
? 定量特征屬性二值化
? 特征標(biāo)準(zhǔn)化與歸一化
分詞
分詞是指將文本數(shù)據(jù)轉(zhuǎn)換為一個(gè)一個(gè)的單詞死陆,是NLP自然語(yǔ)言處理過(guò)程中的基礎(chǔ);因?yàn)閷?duì)于文本信息來(lái)講唧瘾,我們可以認(rèn)為文本中的單詞可以體現(xiàn)文本的特征信息措译,所以在進(jìn)行自然語(yǔ)言相關(guān)的機(jī)器學(xué)習(xí)的時(shí)候,第一操作就是需要將文本信息轉(zhuǎn)換為單詞序列饰序,使用單詞序列來(lái)表達(dá)文本的特征信息领虹。
分詞: 通過(guò)某種技術(shù)將連續(xù)的文本分隔成更具有語(yǔ)言語(yǔ)義學(xué)上意義的詞。這個(gè)過(guò)程就叫做分詞求豫。
分詞的常見(jiàn)方法
1塌衰、按照文本/單詞特征進(jìn)行劃分:對(duì)于英文文檔诉稍,可以基于空格進(jìn)行單詞劃分。
2最疆、詞典匹配:匹配方式可以從左到右杯巨,從右到左。對(duì)于匹配中遇到的多種分段可能性努酸,通常會(huì)選取分隔出來(lái)詞的數(shù)目最小的服爷。
3、基于統(tǒng)計(jì)的方法:隱馬爾可夫模型(HMM)获诈、最大熵模型(ME)仍源,估計(jì)相鄰漢字之間的關(guān)聯(lián)性,進(jìn)而實(shí)現(xiàn)切分舔涎。
4笼踩、基于深度學(xué)習(xí):神經(jīng)網(wǎng)絡(luò)抽取特征、聯(lián)合建模终抽。
Jieba分詞
jieba:中文分詞模塊戳表;
Python中漢字分詞包:jieba
安裝方式: pip install jieba
Github:https://github.com/fxsjy/jieba
jieba分詞原理:
1、字符串匹配:把漢字串與詞典中的詞條進(jìn)行匹配昼伴,識(shí)別出一個(gè)詞匾旭。
2、理解分詞法:通過(guò)分詞子系統(tǒng)圃郊、句法語(yǔ)義子系統(tǒng)价涝、總控部分來(lái)模擬人對(duì)句子的理解。(試驗(yàn)階段)
3持舆、統(tǒng)計(jì)分詞法:建立大規(guī)模語(yǔ)料庫(kù)色瘩,通過(guò)隱馬爾可夫模型或其他模型訓(xùn)練,進(jìn)行分詞(主流方法)
jieba分詞模式:
1逸寓、全模式 jieba.cut(str,cut_all=True)
2居兆、精確模式 jieba.cut(str)
3、搜索引擎模式 jieba.cut_for_search(str)
分詞特征提戎裆臁: 返回TF/IDF權(quán)重最大的關(guān)鍵詞泥栖,默認(rèn)返回20個(gè)。
jieba.analyse.extract_tags(str,topK=20)
自定義詞典: 幫助切分一些無(wú)法識(shí)別的新詞勋篓,加載詞典:jieba.load_userdict(‘dict.txt’)
調(diào)整詞典: add_word(word, freq=None, tag=None)
和 del_word(word)
可在程序中動(dòng)態(tài)修改詞典吧享。使用suggest_freq(segment, tune=True)
可調(diào)節(jié)單個(gè)詞語(yǔ)的詞頻。