第一課

一. hyperopt

# 定義一個目標(biāo)函數(shù)(去最小化)
def objective(args):
    case, val = args
    if case == 'case 1':
        return val
    else:
        return val ** 2

# 定義超參數(shù)的尋找范圍
from hyperopt import hp
space = hp.choice('a',
    [
        ('case 1', 1 + hp.lognormal('c1', 0, 1)),
        ('case 2', hp.uniform('c2', -10, 10))
    ])

# 在某個space內(nèi), 用tpe.suggest算法, 最多迭代100次, 尋找objective函數(shù)的最小值
from hyperopt import fmin, tpe, space_eval
best = fmin(objective, space, algo=tpe.suggest, max_evals=1000)

print(best)
# -> {'a': 1, 'c2': 0.01420615366247227}
print(space_eval(space, best))
# -> ('case 2', 0.01420615366247227}

#    原本例子里迭代100次, 改成1000次后的結(jié)果, 更接近0了
#    {'a': 1, 'c2': 0.0014051587902801626}
#    ('case 2', 0.0014051587902801626)

二. Quora Question Pair

2.1 探索

import pandas as pd
df = pd.read_csv('/home/lyq/Downloads/quora_train.csv')

# 訓(xùn)練集行數(shù)
df.shape[0]

404290行

# 正負(fù)樣本數(shù) 
vc = df['is_duplicate'].value_counts()
vc

0 255027 
1 149263 
Name: is_duplicate, dtype: int64

不重復(fù)的255027個
重復(fù)的149263個

# 正負(fù)樣本的比例
vc/vc.sum()

0 0.630802
1 0.369198
Name: is_duplicate, dtype: float64

不重復(fù)的63%,重復(fù)的37%

# distinct問題數(shù)
import numpy as np
qs = np.append(df['qid1'],df['qid2'])
len(np.unique(qs))

537933

404290對樣本中共包含537933個不重復(fù)的問題

# 多次出現(xiàn)的問題數(shù)
unique_elements, counts_elements = np.unique(qs, return_counts=True)
sum(counts_elements>1)

111780

404290對樣本中111780個問題重復(fù)出現(xiàn)

# 出現(xiàn)幾次的問題有多少個
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.hist(counts_elements, bins=50)
plt.yscale('log', nonposy='clip')

頻率直方圖

2.2 特征

A. 詞嵌入

把one-hot表示的詞向量用不同方法降維慢蜓，變成稠密的表示。調(diào)用gensim包實現(xiàn)。向量化之后用各種距離（余弦距離硝全，jaccard距離，hamming距離除呵，dice距離等）即可計算相似度勾习。

2.2.1 LSI 矩陣分解

利用SVD做矩陣分解，保留num_topics個最大的奇異值煎娇，對應(yīng)num_topics個主題。不同主題中每個詞的權(quán)重不同抱慌，不同樣本（文檔）中每個主題的權(quán)重不同逊桦。

2.2.2 LDA（Latent Dirichlet Allocation）

同樣是求解每個樣本的主題分布，每個主題的詞分布抑进。但是建那烤基于貝葉斯網(wǎng)絡(luò)，概率分布寺渗，和LSI比權(quán)重都是正數(shù)匿情。

2.2.3 Word2vec

用三層神經(jīng)網(wǎng)絡(luò)模型預(yù)測上下文。已經(jīng)上下文單詞預(yù)測中間的一個（CBOW）或者已經(jīng)中心詞預(yù)測上下文詞（skip-gram）

2.2.4 Glove（Global vectors for word representation）

哪些詞經(jīng)常同時出現(xiàn)信殊，說明他們的含義接近炬称。比word2vec覆蓋的范圍更廣，word2vec只能覆蓋上下文的幾個詞涡拘。

B. NER命名實體識別

找出問題中重要的實體玲躯，比如名人名字，機(jī)構(gòu)名字等等

2.2.5 題目中的重要實體

問題中包含哪個人/行業(yè)/學(xué)科.......

C. POS-tag詞性標(biāo)注

2.2.6 問題中是否包含動詞

如何做一件xx事？
xxx為什么是xx跷车？
如何評價xxx棘利？
幾種問題的形式有很大區(qū)別

2.2.7 問題中包含的疑問詞是哪個

what why when who where how

2.2.8 問題中是否包含數(shù)字

D. 其他補(bǔ)充

2.2.9編輯距離

每增刪一個字母+1，看變更多少次可以把兩個問題變成一樣的

2.2.10特征組合

比如：問題中包含的疑問詞是哪個&是否包含數(shù)字朽缴∩泼担總共6*2=12種取值

最后編輯于：2017.12.10 02:25:35

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市密强，隨后出現(xiàn)的幾起案子茅郎，更是在濱河造成了極大的恐慌，老刑警劉巖或渤，帶你破解...
沈念sama閱讀 218,451評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件系冗，死亡現(xiàn)場離奇詭異，居然都是意外死亡劳坑，警方通過查閱死者的電腦和手機(jī)毕谴，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來距芬，“玉大人涝开，你說我怎么就攤上這事】蜃校” “怎么了舀武？”我有些...
開封第一講書人閱讀 164,782評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長离斩。經(jīng)常有香客問我银舱，道長，這世上最難降的妖魔是什么跛梗？我笑而不...
開封第一講書人閱讀 58,709評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任寻馏，我火速辦了婚禮，結(jié)果婚禮上核偿，老公的妹妹穿的比我還像新娘诚欠。我一直安慰自己，他們只是感情好漾岳，可當(dāng)我...
茶點故事閱讀 67,733評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布轰绵。她就那樣靜靜地躺著，像睡著了一般尼荆。火紅的嫁衣襯著肌膚如雪左腔。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,578評論 1贊 305
城市分裂傳說
那天捅儒，我揣著相機(jī)與錄音液样，去河邊找鬼振亮。笑死，一個胖子當(dāng)著我的面吹牛蓄愁，可吹牛的內(nèi)容都是我干的双炕。我是一名探鬼主播，決...
沈念sama閱讀 40,320評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼撮抓，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了摇锋？” 一聲冷哼從身側(cè)響起丹拯，我...
開封第一講書人閱讀 39,241評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎荸恕，沒想到半個月后乖酬，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,686評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡融求，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,878評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年咬像，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片生宛。...
茶點故事閱讀 39,992評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡县昂，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出陷舅，到底是詐尸還是另有隱情倒彰，我是刑警寧澤，帶...
沈念sama閱讀 35,715評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布莱睁，位于F島的核電站待讳，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏仰剿。R本人自食惡果不足惜创淡，卻給世界環(huán)境...
茶點故事閱讀 41,336評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望南吮。院中可真熱鬧琳彩，春花似錦、人聲如沸旨袒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,912評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽砚尽。三九已至施无，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間必孤，已是汗流浹背猾骡。一陣腳步聲響...
開封第一講書人閱讀 33,040評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工瑞躺，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人兴想。一個月前我還...
沈念sama閱讀 48,173評論 3贊 370
代替公主和親
正文我出身青樓幢哨，卻偏偏與公主長得像，于是被迫代替她去往敵國和親嫂便。傳聞我的和親對象是個殘疾皇子捞镰，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,947評論 2贊 355

第一課