某工程性概率問(wèn)題(sstable分裂)

周二的時(shí)候接到一個(gè)新的任務(wù),統(tǒng)計(jì)分塊大小對(duì)系統(tǒng)的讀寫(xiě)影響。
具體的描述一下:(注:由于oceanbase已開(kāi)源痊班,不涉及泄密問(wèn)題)在我們的系統(tǒng)中,每天要做一次增量合并的操作摹量,比如說(shuō)整體數(shù)據(jù)為1到1000涤伐,增量數(shù)據(jù)為1到100馒胆,我們按大小把整體數(shù)據(jù)分為10塊。那么第一塊數(shù)據(jù)的范圍為1-100凝果,第二塊為101-200祝迂,以此類(lèi)推。我們系統(tǒng)的讀寫(xiě)是按塊來(lái)的器净,也就是說(shuō)型雳,一次要把所有的一整塊(100個(gè)數(shù)據(jù))都讀到內(nèi)存中,這樣的話掌动,當(dāng)增量數(shù)據(jù)為1-100時(shí)四啰,全部請(qǐng)求都落在了1號(hào)塊上,那么合并中涉及到的塊數(shù)量為1粗恢;如果增量數(shù)據(jù)稍微分散一下柑晒,變成隨機(jī)的100個(gè)數(shù),很可能造成這100個(gè)數(shù)落在了不同的塊上眷射,那么一次合并操作涉及到的塊的數(shù)量就可能為10個(gè)匙赞。
我們需要做的事情就是如何選擇塊的大小,使得系統(tǒng)中被修改的塊的數(shù)量比上總塊數(shù)量的這個(gè)比率盡可能小妖碉。

最開(kāi)始這個(gè)事情是一個(gè)實(shí)習(xí)生同學(xué)負(fù)責(zé)的涌庭,后來(lái)由于各種原因,被交接到我這里欧宜。
那天接到任務(wù)的時(shí)候坐榆,覺(jué)得這其實(shí)是一個(gè)數(shù)學(xué)問(wèn)題,或者說(shuō)冗茸,一個(gè)概率問(wèn)題席镀。
我們可以將這個(gè)問(wèn)題抽象一下,假設(shè)所有的數(shù)據(jù)全部隨機(jī)夏漱,同時(shí)豪诲,增量數(shù)據(jù)也全部隨機(jī),在這樣的前提下挂绰,這個(gè)問(wèn)題可以轉(zhuǎn)化為:

將u個(gè)不同的小球放入y個(gè)不同的盒子中屎篱,在操作完成后,不為空的盒子的數(shù)量的期望為多少葵蒂?

將u個(gè)不同的小球放入y個(gè)不同的盒子中交播,一共可能有


種方式。
那么践付,將u個(gè)不同的小球都放入同一個(gè)盒子中時(shí)秦士,概率為:



將u個(gè)不同的小球放入2個(gè)不同的盒子中時(shí),概率為:



以此類(lèi)推荔仁,在考慮將u個(gè)小球放入n個(gè)不同的盒子中時(shí)伍宦,概率應(yīng)該為:



合并這些子概率,可以得到最終的結(jié)果為:

本來(lái)以為這樣是正確的了乏梁,發(fā)郵件出去的時(shí)候次洼,同事提醒我第二個(gè)式子有問(wèn)題,那個(gè)累加是沒(méi)有必要的遇骑,后來(lái)仔細(xì)思考了一下卖毁,發(fā)現(xiàn)確實(shí)是不對(duì)的,推導(dǎo)過(guò)程如下:

假設(shè)Si為n個(gè)球放入i個(gè)盒子中落萎,且每一個(gè)盒子不空亥啦,那么可以得到:



如上證明,可以得到正確的期望為:

當(dāng)使用這個(gè)式子進(jìn)行模擬實(shí)驗(yàn)時(shí)练链,發(fā)現(xiàn)在一些情況下會(huì)出現(xiàn)負(fù)值翔脱。也就是說(shuō),這個(gè)式子的結(jié)果仍然是錯(cuò)誤的媒鼓,我們又一次得到的是一個(gè)看似正確的結(jié)論届吁。
今天一個(gè)下午都在思考這個(gè)問(wèn)題,終于發(fā)現(xiàn)錯(cuò)誤的原因绿鸣。
我們?cè)谑褂脺p法處理空盒情況時(shí)疚沐,其實(shí)違反了互斥原理。
考慮3個(gè)盒子的情況潮模,假設(shè)集合{Ai亮蛔,第i個(gè)盒子為空,i=1,2,3}擎厢。
總的方式為


所以可以得到:



*(注意:其中的“+”) *
這個(gè)值的計(jì)算究流,其實(shí)來(lái)源一個(gè)經(jīng)典問(wèn)題:
【定義】n個(gè)有區(qū)別的球放到m個(gè)相同的盒子中,要求無(wú)一空盒锉矢,其不同的方案數(shù)用S(n,m)表示梯嗽,稱(chēng)為第二類(lèi)Stirling數(shù)。
【定理】S(n,m)=mS(n-1,m)+S(n-1,m-1) (n>1,m>1)
在相同盒子的基礎(chǔ)上沽损,我們只要乘以盒子數(shù)的全排列灯节,就可以得到不同盒的情況。
所以绵估,我們的結(jié)論公式應(yīng)該為:

其中炎疆,

每一個(gè)看似正確的地方都可能蘊(yùn)含著無(wú)數(shù)的錯(cuò)誤和謬論。
**The simple things are always hard. **
over
原文時(shí)間(2013-9-4 )
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末国裳,一起剝皮案震驚了整個(gè)濱河市形入,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缝左,老刑警劉巖亿遂,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浓若,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蛇数,警方通過(guò)查閱死者的電腦和手機(jī)挪钓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)耳舅,“玉大人碌上,你說(shuō)我怎么就攤上這事∑只玻” “怎么了馏予?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)盔性。 經(jīng)常有香客問(wèn)我霞丧,道長(zhǎng),這世上最難降的妖魔是什么冕香? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任蚯妇,我火速辦了婚禮,結(jié)果婚禮上暂筝,老公的妹妹穿的比我還像新娘箩言。我一直安慰自己,他們只是感情好焕襟,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布陨收。 她就那樣靜靜地躺著,像睡著了一般鸵赖。 火紅的嫁衣襯著肌膚如雪务漩。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,079評(píng)論 1 285
  • 那天它褪,我揣著相機(jī)與錄音饵骨,去河邊找鬼。 笑死茫打,一個(gè)胖子當(dāng)著我的面吹牛居触,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播老赤,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼轮洋,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了抬旺?” 一聲冷哼從身側(cè)響起弊予,我...
    開(kāi)封第一講書(shū)人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎开财,沒(méi)想到半個(gè)月后汉柒,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體误褪,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年碾褂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了振坚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斋扰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出啃洋,到底是詐尸還是另有隱情传货,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布宏娄,位于F島的核電站问裕,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏孵坚。R本人自食惡果不足惜粮宛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望卖宠。 院中可真熱鬧巍杈,春花似錦、人聲如沸扛伍。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)刺洒。三九已至鳖宾,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間逆航,已是汗流浹背鼎文。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留因俐,地道東北人拇惋。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像抹剩,于是被迫代替她去往敵國(guó)和親蚤假。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容