重要度采樣 importance sampling

Neil Zhu晌该,簡(jiǎn)書ID Not_GOD抽减,University AI 創(chuàng)始人 & Chief Scientist您机,致力于推進(jìn)世界人工智能化進(jìn)程谬泌。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo),帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專業(yè)的力量乙墙。
作為行業(yè)領(lǐng)導(dǎo)者颖变,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))生均,AI growth(行業(yè)智庫(kù)培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分腥刹。此外马胧,他還參與或者舉辦過(guò)各類國(guó)際性的人工智能峰會(huì)和活動(dòng),產(chǎn)生了巨大的影響力衔峰,書寫了60萬(wàn)字的人工智能精品技術(shù)內(nèi)容漓雅,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載朽色。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程,均受學(xué)生和老師好評(píng)组题。

Tim Roughgarden 有關(guān)重要度采樣簡(jiǎn)要介紹

基本想法是我們可以基于分布 B 的樣本來(lái)估計(jì)分布 A 的屬性葫男。有時(shí)候,A 和 B 是固定的崔列,有時(shí)候我們可以設(shè)計(jì)分布 B 讓我們使用比直接從 A 中采樣更少的樣本回答關(guān)于 A 的一些問(wèn)題梢褐。這種做法通過(guò)讓分布 B 給那些重要的元素更大的權(quán)重達(dá)成的。下面給個(gè)例子赵讯。
例子:假設(shè)我們想要估計(jì)人群的平均收入盈咳。我們知道收入的分布是長(zhǎng)尾的。在分布頭部的那些收入對(duì)平均收入有著巨大的影響边翼。這個(gè)長(zhǎng)長(zhǎng)的尾巴會(huì)給我們帶來(lái)一些困難——如果我們?從尾部獲得不了任何的樣本鱼响,那么最終的估計(jì)肯定會(huì)很差。我們需要獲得足夠多的樣本來(lái)從尾部得到具有代表性的樣本组底。

我們可以使用重要度采樣:假設(shè)我們知道計(jì)算機(jī)科學(xué)家有超過(guò)平均水平的收入丈积,計(jì)算機(jī)科學(xué)家占據(jù) 0.05 的人口比例。我們不會(huì)從人群中采樣 n 個(gè)隨機(jī)樣本债鸡,假設(shè)我們?nèi)〕鰜?lái)非計(jì)算機(jī)科學(xué)家為 0.8n 個(gè)樣本江滨,隨機(jī)的計(jì)算機(jī)科學(xué)家是 0.2n 個(gè)樣本。如果 a1 是非計(jì)算機(jī)科學(xué)家的平均收入厌均,a2 是計(jì)算機(jī)科學(xué)家的平均收入唬滑,我們可以估計(jì)總?cè)巳旱钠骄杖胧牵?/p>

這樣做的好處是,通過(guò)從更高的收入人群中取出更多的樣本棺弊,我們能夠得到更好的關(guān)于尾部的估計(jì)晶密。當(dāng)然,最終的計(jì)算需要重新規(guī)范這兩個(gè)樣本使得最終的估計(jì)是無(wú)偏估計(jì)镊屎。

David Mackay 的解釋

更加嚴(yán)格地看惹挟,如何確定通過(guò)過(guò)采樣計(jì)算機(jī)科學(xué)家的樣本的采樣效果呢?這個(gè)結(jié)果并沒(méi)有改變最終答案的期望值——仍然是無(wú)偏估計(jì)缝驳。好處是我們已經(jīng)降低了估計(jì)的方差连锯,通過(guò)聚焦我們的樣本在分布的重要的部分上(對(duì)我們關(guān)注的屬性更加重要的因素——這個(gè)例子中就是:估計(jì)均值)

重要度采樣并不是一種從 P(x) 中產(chǎn)生樣本归苍;這只是一種估計(jì)一個(gè)函數(shù) Φ(x) 的一種方法。它可以看做是均勻分布的一種推廣运怖。為了更好地解釋這個(gè)方法思想拼弃。讓我們假設(shè)目標(biāo)分布式一個(gè)一維的密度函數(shù) P(x)。假設(shè)我們可以在任一取定的點(diǎn) x 處度量這密度摇展,至少是相差一種乘子常量的比值吻氧;因此我們可以度量函數(shù) P*(x) 滿足

但是 P(x) 是一個(gè)特別復(fù)雜的函數(shù),不能夠直接從中采樣∮搅現(xiàn)在假設(shè)我們有一個(gè)更加簡(jiǎn)單的密度函數(shù) Q(x)盯孙,從中我們可以產(chǎn)生樣本,并且直接以一個(gè)乘子對(duì)Q(x)進(jìn)行求值祟滴,其中Q(x)=Q(x)/ZQ振惰。舉個(gè)例子,Q, P, Φ 如圖 29.5 所示

圖 29.5

我們稱 Q(x) 為采樣器密度垄懂。在重要度采樣中骑晶,我們會(huì)從 Q(x) 中生成 R 個(gè)樣本 {x(r)}r=1..R。如果這些點(diǎn)從 P(x) 中采樣出來(lái)草慧,我們可以根據(jù)下式估計(jì) Φ

但是我們?cè)趶?Q(x) 中產(chǎn)生的樣本時(shí)桶蛔,那些 Q(x) 中 x 的值超過(guò) P(x) 的地方會(huì)被在此估計(jì)器重超表示(over-represented),而在 Q(x) 中 x 的值低于 P(x) 的地方欠表示漫谷。為了將這個(gè)情況克服掉仔雷,我們引入了權(quán)重的概念:

這個(gè)被用來(lái)調(diào)整每個(gè)點(diǎn)的重要度:

參考文獻(xiàn):

  1. https://timvieira.github.io/blog/post/2014/12/21/importance-sampling/

Drawbacks: The main drawback of importance sampling is variance. A few bad samples with large weights can drastically throw off the estimator. Thus, it's often the case that a biased estimator is preferred, e.g., estimating the partition function, clipping weights, indirect importance sampling. A secondary drawback is that both densities must be normalized, which is often intractable.

  1. http://www.iro.umontreal.ca/~lisa/pointeurs/senecal_aistats2003.pdf

?神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型可以解決統(tǒng)計(jì)語(yǔ)言模型中的維度災(zāi)難問(wèn)題。通過(guò)最大似然來(lái)訓(xùn)練模型本身需要對(duì)詞表中的每個(gè)詞作為樣本執(zhí)行一遍網(wǎng)絡(luò)的傳播抖剿。受到 contrastive divergence 模型的啟發(fā)朽寞,我們提出了一種基于采樣的方法,僅僅需要對(duì)那些觀測(cè)為正例和采樣為負(fù)例的樣本詞進(jìn)行網(wǎng)絡(luò)的傳播斩郎。通過(guò)可適應(yīng)的重要度采樣得到了顯著的性能提升脑融。

  1. www.cs.toronto.edu/~mackay/itprnn/ps/358.386.pdf
  2. http://www.columbia.edu/~mh2078/MCS04/MCS_var_red2.pdf
  3. http://www.cs.toronto.edu/~rsalakhu/papers/atten_nips14.pdf
  4. http://www.smarttypes.org/blog/deep_learning
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市缩宜,隨后出現(xiàn)的幾起案子肘迎,更是在濱河造成了極大的恐慌,老刑警劉巖锻煌,帶你破解...
    沈念sama閱讀 212,686評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妓布,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡宋梧,警方通過(guò)查閱死者的電腦和手機(jī)匣沼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,668評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)捂龄,“玉大人释涛,你說(shuō)我怎么就攤上這事加叁。” “怎么了唇撬?”我有些...
    開封第一講書人閱讀 158,160評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵它匕,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我窖认,道長(zhǎng)豫柬,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,736評(píng)論 1 284
  • 正文 為了忘掉前任扑浸,我火速辦了婚禮烧给,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘喝噪。我一直安慰自己创夜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,847評(píng)論 6 386
  • 文/花漫 我一把揭開白布仙逻。 她就那樣靜靜地躺著,像睡著了一般涧尿。 火紅的嫁衣襯著肌膚如雪系奉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,043評(píng)論 1 291
  • 那天姑廉,我揣著相機(jī)與錄音缺亮,去河邊找鬼。 笑死桥言,一個(gè)胖子當(dāng)著我的面吹牛萌踱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播号阿,決...
    沈念sama閱讀 39,129評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼并鸵,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了扔涧?” 一聲冷哼從身側(cè)響起园担,我...
    開封第一講書人閱讀 37,872評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎枯夜,沒(méi)想到半個(gè)月后弯汰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,318評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡湖雹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,645評(píng)論 2 327
  • 正文 我和宋清朗相戀三年咏闪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摔吏。...
    茶點(diǎn)故事閱讀 38,777評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鸽嫂,死狀恐怖纵装,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情溪胶,我是刑警寧澤搂擦,帶...
    沈念sama閱讀 34,470評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站哗脖,受9級(jí)特大地震影響瀑踢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜才避,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,126評(píng)論 3 317
  • 文/蒙蒙 一橱夭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧桑逝,春花似錦棘劣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,861評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至寡喝,卻和暖如春糙俗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背预鬓。 一陣腳步聲響...
    開封第一講書人閱讀 32,095評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工巧骚, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人格二。 一個(gè)月前我還...
    沈念sama閱讀 46,589評(píng)論 2 362
  • 正文 我出身青樓劈彪,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親顶猜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子沧奴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,687評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容