第一課

一. hyperopt

# 定義一個目標(biāo)函數(shù)(去最小化)
def objective(args):
    case, val = args
    if case == 'case 1':
        return val
    else:
        return val ** 2

# 定義超參數(shù)的尋找范圍
from hyperopt import hp
space = hp.choice('a',
    [
        ('case 1', 1 + hp.lognormal('c1', 0, 1)),
        ('case 2', hp.uniform('c2', -10, 10))
    ])

# 在某個space內(nèi), 用tpe.suggest算法, 最多迭代100次, 尋找objective函數(shù)的最小值
from hyperopt import fmin, tpe, space_eval
best = fmin(objective, space, algo=tpe.suggest, max_evals=1000)

print(best)
# -> {'a': 1, 'c2': 0.01420615366247227}
print(space_eval(space, best))
# -> ('case 2', 0.01420615366247227}

#    原本例子里迭代100次, 改成1000次后的結(jié)果, 更接近0了
#    {'a': 1, 'c2': 0.0014051587902801626}
#    ('case 2', 0.0014051587902801626)

二. Quora Question Pair

2.1 探索

import pandas as pd
df = pd.read_csv('/home/lyq/Downloads/quora_train.csv')
# 訓(xùn)練集行數(shù)
df.shape[0]

404290行

# 正負(fù)樣本數(shù) 
vc = df['is_duplicate'].value_counts()
vc

0 255027 
1 149263 
Name: is_duplicate, dtype: int64

不重復(fù)的255027個
重復(fù)的149263個

# 正負(fù)樣本的比例
vc/vc.sum()

0 0.630802
1 0.369198
Name: is_duplicate, dtype: float64

不重復(fù)的63%,重復(fù)的37%

# distinct問題數(shù)
import numpy as np
qs = np.append(df['qid1'],df['qid2'])
len(np.unique(qs))

537933

404290對樣本中共包含537933個不重復(fù)的問題

# 多次出現(xiàn)的問題數(shù)
unique_elements, counts_elements = np.unique(qs, return_counts=True)
sum(counts_elements>1)

111780

404290對樣本中111780個問題重復(fù)出現(xiàn)

# 出現(xiàn)幾次的問題有多少個
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.hist(counts_elements, bins=50)
plt.yscale('log', nonposy='clip')

頻率直方圖


2.2 特征

A. 詞嵌入

把one-hot表示的詞向量用不同方法降維慢蜓, 變成稠密的表示。調(diào)用gensim包實現(xiàn)。向量化之后用各種距離(余弦距離硝全,jaccard距離,hamming距離除呵,dice距離等)即可計算相似度勾习。

2.2.1 LSI 矩陣分解

利用SVD做矩陣分解,保留num_topics個最大的奇異值煎娇,對應(yīng)num_topics個主題。 不同主題中每個詞的權(quán)重不同抱慌,不同樣本(文檔)中每個主題的權(quán)重不同逊桦。

2.2.2 LDA(Latent Dirichlet Allocation)

同樣是求解每個樣本的主題分布, 每個主題的詞分布抑进。但是建那烤基于貝葉斯網(wǎng)絡(luò),概率分布寺渗, 和LSI比權(quán)重都是正數(shù)匿情。

2.2.3 Word2vec

用三層神經(jīng)網(wǎng)絡(luò)模型預(yù)測上下文。已經(jīng)上下文單詞預(yù)測中間的一個(CBOW)或者已經(jīng)中心詞預(yù)測上下文詞(skip-gram)

2.2.4 Glove(Global vectors for word representation)

哪些詞經(jīng)常同時出現(xiàn)信殊,說明他們的含義接近炬称。比word2vec覆蓋的范圍更廣,word2vec只能覆蓋上下文的幾個詞涡拘。

B. NER命名實體識別

找出問題中重要的實體玲躯,比如名人名字,機(jī)構(gòu)名字等等

2.2.5 題目中的重要實體

問題中包含哪個人/行業(yè)/學(xué)科.......

C. POS-tag詞性標(biāo)注

2.2.6 問題中是否包含動詞

如何做一件xx事?
xxx為什么是xx跷车?
如何評價xxx棘利?
幾種問題的形式有很大區(qū)別

2.2.7 問題中包含的疑問詞是哪個

what why when who where how

2.2.8 問題中是否包含數(shù)字

D. 其他補(bǔ)充

2.2.9編輯距離

每增刪一個字母+1,看變更多少次可以把兩個問題變成一樣的

2.2.10特征組合

比如:問題中包含的疑問詞是哪個&是否包含數(shù)字朽缴∩泼担總共6*2=12種取值

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市密强,隨后出現(xiàn)的幾起案子茅郎,更是在濱河造成了極大的恐慌,老刑警劉巖或渤,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件系冗,死亡現(xiàn)場離奇詭異,居然都是意外死亡劳坑,警方通過查閱死者的電腦和手機(jī)毕谴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來距芬,“玉大人涝开,你說我怎么就攤上這事】蜃校” “怎么了舀武?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長离斩。 經(jīng)常有香客問我银舱,道長,這世上最難降的妖魔是什么跛梗? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任寻馏,我火速辦了婚禮,結(jié)果婚禮上核偿,老公的妹妹穿的比我還像新娘诚欠。我一直安慰自己,他們只是感情好漾岳,可當(dāng)我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布轰绵。 她就那樣靜靜地躺著,像睡著了一般尼荆。 火紅的嫁衣襯著肌膚如雪左腔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天捅儒,我揣著相機(jī)與錄音液样,去河邊找鬼振亮。 笑死,一個胖子當(dāng)著我的面吹牛蓄愁,可吹牛的內(nèi)容都是我干的双炕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼撮抓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了摇锋?” 一聲冷哼從身側(cè)響起丹拯,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎荸恕,沒想到半個月后乖酬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡融求,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年咬像,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片生宛。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡县昂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出陷舅,到底是詐尸還是另有隱情倒彰,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布莱睁,位于F島的核電站待讳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏仰剿。R本人自食惡果不足惜创淡,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望南吮。 院中可真熱鬧琳彩,春花似錦、人聲如沸旨袒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽砚尽。三九已至施无,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間必孤,已是汗流浹背猾骡。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工瑞躺, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人兴想。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓幢哨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親嫂便。 傳聞我的和親對象是個殘疾皇子捞镰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1、“亞泰預(yù)制毙替、精工品質(zhì)”的企業(yè)理念 2岸售、打造“金鼎鹿”品牌 3、擁有建設(shè)部核發(fā)的混凝土預(yù)制構(gòu)件行業(yè)最高級資質(zhì)(二...
    瀟湘淋毓閱讀 173評論 0 1
  • FileObserver 是一個用來監(jiān)聽文件變化的抽象類厂画,子類必須實現(xiàn)事件處理的方法 onEvent(int, S...
    dingyx閱讀 16,810評論 0 7