NLP入門總結(jié)

part 1 for beginners bag of words

  1. 數(shù)據(jù)讀取

    train = pd.read_csv("labeledTrainData.tsv", header=0, \ delimiter="\t", quoting=3)

    >>> train.shape

    (25000, 3)

    數(shù)據(jù)有25000行,三列.

  2. 數(shù)據(jù)清洗和文本處理

    由于數(shù)據(jù)中有html標(biāo)簽,引入BeautifulSoup庫進(jìn)行清理,同時使用正則表達(dá)式,把標(biāo)點(diǎn)符號和數(shù)字替換為空格,然后出去所有的大寫字母,方便后來的單詞處理 (例如Love和love,實(shí)質(zhì)是一個單詞,如果不把大小字母處理,可能會識別為兩個單詞),還要去除 stop words,因?yàn)?stop words 出現(xiàn)的頻率高,但是意義不大.關(guān)鍵代碼如下:

    example1 = BeautifulSoup(train["review"][0]).get_text()

    letters_only = re.sub("[^a-zA-Z]", " ")

    lower_case = letters_only.lower()

    words = lower_case.split()

    然后把每一個review的處理后的詞造成,放入list中

  3. 使用詞袋模型創(chuàng)建特征向量

    Sentence 1: "The cat sat on the hat"

    Sentence 2: "The dog ate the cat and the hat"

    From these two sentences, our vocabulary is as follows:

    M = { the, cat, sat, on, hat, dog, ate, and }

    集合M稱為詞匯表,詞匯表是從所有的訓(xùn)練文本中提取出來的詞匯的集合

    Sentence 1: { 2, 1, 1, 1, 1, 0, 0, 0 }

    Sentence 2: { 3, 1, 0, 0, 1, 1, 1, 1}

    把每一個Sentence轉(zhuǎn)化為一個向量

    詞匯表的長度n撮奏,就是每一個Sentence向量的維度

    這就是使用詞袋模型創(chuàng)建特征向量的基本方法

    此時統(tǒng)計review樣本中的詞匯惜论,找到詞匯表M个榕,然后按照上述方法,將每一個review轉(zhuǎn)化為特征向量(特征向量的維度取決于詞匯表的長度n

  4. 隨機(jī)森林算法

    有了每一個review的特征向量,還有每一個review的sentiment,采用隨機(jī)深林算法

    forest = forest.fit( train_data_features, train["sentiment"] )

    算法完成以后封恰,可以做預(yù)測

    result = forest.predict(test_data_features)

    其中test_data_features無sentiment標(biāo)簽

    output = pd.DataFrame(data={"id":test["id"], "sentiment":result})


part 2 word vectors

問題引入

什么是one-hot編碼,該編碼有什么缺點(diǎn)褐啡?

任何一門語言诺舔,都是由一堆的詞組成,所有的詞备畦,構(gòu)成了一個詞匯表低飒。詞匯表,可以用一個長長的向量來表示懂盐。詞的個數(shù)褥赊,就是詞匯表向量的維度。那么莉恼,任何一個詞拌喉,都可以表示成一個向量,詞在詞匯表中出現(xiàn)的位置設(shè)為1俐银,其它的位置設(shè)為0尿背。但是這種詞向量的表示,詞和詞之間沒有交集捶惜,用處不大田藐。

為什么需要word2vec,word2vec主要是干什么用的吱七?

為了克服one-hot編碼的缺點(diǎn),word2vec利用上下文信息推測詞的意思坞淮,這種方法訓(xùn)練出來的詞,相似的詞陪捷,詞的特征向量之間的夾角越小回窘。


Word2Vec 的訓(xùn)練模型,是具有一個隱含層的神經(jīng)元網(wǎng)絡(luò)市袖,有兩種訓(xùn)練方法
CBOW (Continuous Bag-of-Words Model) 和 Skip-gram (Continuous Skip-gram Model)

CBOW啡直,它的做法是烁涌,將一個詞所在的上下文中的詞作為輸入,而那個詞本身作為輸出酒觅,也就是說撮执,看到一個上下文,希望大概能猜出這個詞和它的意思舷丹。


Skip-gram抒钱,它的做法是,將一個詞所在的上下文中的詞作為輸出颜凯,而那個詞本身作為輸入谋币,也就是說,給出一個詞症概,希望預(yù)測可能出現(xiàn)的上下文的詞


part2正式內(nèi)容

  1. word2vec介紹

    word2vec由谷歌在2013年發(fā)布,balabala...............

  2. 如何在python中使用

    如何安裝蕾额,此處省略。彼城。诅蝶。。募壕。调炬。。舱馅。

  3. 訓(xùn)練模型缰泡,保存訓(xùn)練后的模型,測試

    主要代碼如下:

    model = word2vec.Word2Vec(sentences, workers=num_workers, \
    size=num_features, min_count = min_word_count, \
    window = context, sample = downsampling)


    Word2Vec.load()

    model_name = "300features_40minwords_10context"

    model.save(model_name)

    測試模型

    >>model.doesnt_match("man woman child kitchen".split())

    'kitchen'

model.most_similar("man")
[(u'woman', 0.6056041121482849), (u'guy', 0.4935004413127899), (u'boy', 0.48933547735214233), (u'men', 0.4632953703403473), (u'person', 0.45742249488830566), (u'lady', 0.4487500488758087), (u'himself', 0.4288588762283325), (u'girl', 0.4166809320449829), (u'his', 0.3853422999382019), (u'he', 0.38293731212615967)]

part 3 more fun with word vectors

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末习柠,一起剝皮案震驚了整個濱河市匀谣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌资溃,老刑警劉巖武翎,帶你破解...
    沈念sama閱讀 221,576評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異溶锭,居然都是意外死亡宝恶,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評論 3 399
  • 文/潘曉璐 我一進(jìn)店門趴捅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垫毙,“玉大人缚俏,你說我怎么就攤上這事祠够。” “怎么了反砌?”我有些...
    開封第一講書人閱讀 168,017評論 0 360
  • 文/不壞的土叔 我叫張陵猎拨,是天一觀的道長膀藐。 經(jīng)常有香客問我屠阻,道長,這世上最難降的妖魔是什么额各? 我笑而不...
    開封第一講書人閱讀 59,626評論 1 296
  • 正文 為了忘掉前任国觉,我火速辦了婚禮,結(jié)果婚禮上虾啦,老公的妹妹穿的比我還像新娘麻诀。我一直安慰自己,他們只是感情好傲醉,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評論 6 397
  • 文/花漫 我一把揭開白布蝇闭。 她就那樣靜靜地躺著,像睡著了一般需频。 火紅的嫁衣襯著肌膚如雪丁眼。 梳的紋絲不亂的頭發(fā)上筷凤,一...
    開封第一講書人閱讀 52,255評論 1 308
  • 那天昭殉,我揣著相機(jī)與錄音,去河邊找鬼藐守。 笑死挪丢,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的卢厂。 我是一名探鬼主播乾蓬,決...
    沈念sama閱讀 40,825評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼慎恒!你這毒婦竟也來了任内?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,729評論 0 276
  • 序言:老撾萬榮一對情侶失蹤融柬,失蹤者是張志新(化名)和其女友劉穎死嗦,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體粒氧,經(jīng)...
    沈念sama閱讀 46,271評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡越除,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了外盯。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摘盆。...
    茶點(diǎn)故事閱讀 40,498評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖饱苟,靈堂內(nèi)的尸體忽然破棺而出孩擂,到底是詐尸還是另有隱情,我是刑警寧澤箱熬,帶...
    沈念sama閱讀 36,183評論 5 350
  • 正文 年R本政府宣布类垦,位于F島的核電站囤锉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏护锤。R本人自食惡果不足惜官地,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望烙懦。 院中可真熱鬧驱入,春花似錦、人聲如沸氯析。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽掩缓。三九已至雪情,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間你辣,已是汗流浹背巡通。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留舍哄,地道東北人宴凉。 一個月前我還...
    沈念sama閱讀 48,906評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像表悬,于是被迫代替她去往敵國和親弥锄。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評論 2 359