Neil Zhu晌该,簡(jiǎn)書ID Not_GOD抽减,University AI 創(chuàng)始人 & Chief Scientist您机,致力于推進(jìn)世界人工智能化進(jìn)程谬泌。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo),帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專業(yè)的力量乙墙。
作為行業(yè)領(lǐng)導(dǎo)者颖变,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))生均,AI growth(行業(yè)智庫(kù)培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分腥刹。此外马胧,他還參與或者舉辦過(guò)各類國(guó)際性的人工智能峰會(huì)和活動(dòng),產(chǎn)生了巨大的影響力衔峰,書寫了60萬(wàn)字的人工智能精品技術(shù)內(nèi)容漓雅,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載朽色。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評(píng)组题。
Tim Roughgarden 有關(guān)重要度采樣簡(jiǎn)要介紹
基本想法是我們可以基于分布 B 的樣本來(lái)估計(jì)分布 A 的屬性葫男。有時(shí)候,A 和 B 是固定的崔列,有時(shí)候我們可以設(shè)計(jì)分布 B 讓我們使用比直接從 A 中采樣更少的樣本回答關(guān)于 A 的一些問(wèn)題梢褐。這種做法通過(guò)讓分布 B 給那些重要的元素更大的權(quán)重達(dá)成的。下面給個(gè)例子赵讯。
例子:假設(shè)我們想要估計(jì)人群的平均收入盈咳。我們知道收入的分布是長(zhǎng)尾的。在分布頭部的那些收入對(duì)平均收入有著巨大的影響边翼。這個(gè)長(zhǎng)長(zhǎng)的尾巴會(huì)給我們帶來(lái)一些困難——如果我們?從尾部獲得不了任何的樣本鱼响,那么最終的估計(jì)肯定會(huì)很差。我們需要獲得足夠多的樣本來(lái)從尾部得到具有代表性的樣本组底。
我們可以使用重要度采樣:假設(shè)我們知道計(jì)算機(jī)科學(xué)家有超過(guò)平均水平的收入丈积,計(jì)算機(jī)科學(xué)家占據(jù) 0.05 的人口比例。我們不會(huì)從人群中采樣 n 個(gè)隨機(jī)樣本债鸡,假設(shè)我們?nèi)〕鰜?lái)非計(jì)算機(jī)科學(xué)家為 0.8n 個(gè)樣本江滨,隨機(jī)的計(jì)算機(jī)科學(xué)家是 0.2n 個(gè)樣本。如果 a1 是非計(jì)算機(jī)科學(xué)家的平均收入厌均,a2 是計(jì)算機(jī)科學(xué)家的平均收入唬滑,我們可以估計(jì)總?cè)巳旱钠骄杖胧牵?/p>
這樣做的好處是,通過(guò)從更高的收入人群中取出更多的樣本棺弊,我們能夠得到更好的關(guān)于尾部的估計(jì)晶密。當(dāng)然,最終的計(jì)算需要重新規(guī)范這兩個(gè)樣本使得最終的估計(jì)是無(wú)偏估計(jì)镊屎。
David Mackay 的解釋
更加嚴(yán)格地看惹挟,如何確定通過(guò)過(guò)采樣計(jì)算機(jī)科學(xué)家的樣本的采樣效果呢?這個(gè)結(jié)果并沒(méi)有改變最終答案的期望值——仍然是無(wú)偏估計(jì)缝驳。好處是我們已經(jīng)降低了估計(jì)的方差连锯,通過(guò)聚焦我們的樣本在分布的重要的部分上(對(duì)我們關(guān)注的屬性更加重要的因素——這個(gè)例子中就是:估計(jì)均值)
重要度采樣并不是一種從 P(x) 中產(chǎn)生樣本归苍;這只是一種估計(jì)一個(gè)函數(shù) Φ(x) 的一種方法。它可以看做是均勻分布的一種推廣运怖。為了更好地解釋這個(gè)方法思想拼弃。讓我們假設(shè)目標(biāo)分布式一個(gè)一維的密度函數(shù) P(x)。假設(shè)我們可以在任一取定的點(diǎn) x 處度量這密度摇展,至少是相差一種乘子常量的比值吻氧;因此我們可以度量函數(shù) P*(x) 滿足
但是 P(x) 是一個(gè)特別復(fù)雜的函數(shù),不能夠直接從中采樣∮搅現(xiàn)在假設(shè)我們有一個(gè)更加簡(jiǎn)單的密度函數(shù) Q(x)盯孙,從中我們可以產(chǎn)生樣本,并且直接以一個(gè)乘子對(duì)Q(x)進(jìn)行求值祟滴,其中Q(x)=Q(x)/ZQ振惰。舉個(gè)例子,Q, P, Φ 如圖 29.5 所示
我們稱 Q(x) 為采樣器密度垄懂。在重要度采樣中骑晶,我們會(huì)從 Q(x) 中生成 R 個(gè)樣本 {x(r)}r=1..R。如果這些點(diǎn)從 P(x) 中采樣出來(lái)草慧,我們可以根據(jù)下式估計(jì) Φ
但是我們?cè)趶?Q(x) 中產(chǎn)生的樣本時(shí)桶蛔,那些 Q(x) 中 x 的值超過(guò) P(x) 的地方會(huì)被在此估計(jì)器重超表示(over-represented),而在 Q(x) 中 x 的值低于 P(x) 的地方欠表示漫谷。為了將這個(gè)情況克服掉仔雷,我們引入了權(quán)重的概念:
這個(gè)被用來(lái)調(diào)整每個(gè)點(diǎn)的重要度:
參考文獻(xiàn):
Drawbacks: The main drawback of importance sampling is variance. A few bad samples with large weights can drastically throw off the estimator. Thus, it's often the case that a biased estimator is preferred, e.g., estimating the partition function, clipping weights, indirect importance sampling. A secondary drawback is that both densities must be normalized, which is often intractable.
?神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型可以解決統(tǒng)計(jì)語(yǔ)言模型中的維度災(zāi)難問(wèn)題。通過(guò)最大似然來(lái)訓(xùn)練模型本身需要對(duì)詞表中的每個(gè)詞作為樣本執(zhí)行一遍網(wǎng)絡(luò)的傳播抖剿。受到 contrastive divergence 模型的啟發(fā)朽寞,我們提出了一種基于采樣的方法,僅僅需要對(duì)那些觀測(cè)為正例和采樣為負(fù)例的樣本詞進(jìn)行網(wǎng)絡(luò)的傳播斩郎。通過(guò)可適應(yīng)的重要度采樣得到了顯著的性能提升脑融。