這篇東西本質(zhì)上是我自己想要解決一個假象的問題而鼓搗出來的計算稿。
由于這方面的東西所涉及的知識都不深滚躯,所以可以在不查文獻和前人工作的情況下自己從零開始硬推所有結(jié)論还惠。這樣的做法當然比較浪費自己的時間坏挠,但也算是熟悉一下里面整個邏輯脈絡(luò)的好方法吧冲茸。
先從我們已經(jīng)熟悉的東西開始入手。
一篇文章A固灵,假定我們知道它有p的可能使得看過它的人為其點贊捅伤,那么最后當有n人看時,點贊數(shù)為x的概率就是二次分布:
反過來巫玻,假定我們已經(jīng)知道A在有n人看時有x人為其點贊丛忆,那么A使得一個新的人看后為其點贊的概率p的分布就滿足Beta分布:
這是一個靜態(tài)的情況,所以也是很簡單的仍秤。
我們當然可以考慮其動態(tài)的拓展熄诡,比如說在所有前提條件都不變的情況下,假定在t1時刻有n1人看過A诗力,點贊數(shù)位x0粮彤,而在t2時刻有n2人看過,那么求此時點贊數(shù)x的分布姜骡。
這個問題也很簡單:
事實上,這個代表了從< n0, x0 >分布態(tài)到< n, x >分布態(tài)的“躍遷”的結(jié)果并不考慮這個“躍遷”過程究竟是如何發(fā)生的屿良,它所關(guān)心的僅僅是數(shù)量圈澈。這就表示,在t1到t2這個時間段里無論n和x是勻速改變還是變速改變尘惧,都不影響結(jié)果康栈。
于是,我們就可以自然地問下一個問題了:
假定單位時間里閱讀文章A的人的數(shù)量為l喷橙,點贊的概率為p啥么,那么請問t時刻有x人為文章點贊的概率為多少?以及贰逾,如果t時刻有x人點贊悬荣,那么文章A吸引人點贊的概率為p的概率為多少?
這個問題當然也是很簡單的:
你看疙剑,是不是一點技術(shù)含量都沒有氯迂?
下面,我們接著修改問題:
假定言缤,增速l每經(jīng)過單位時間就下降一定的百分比嚼蚀,那么此時會發(fā)生什么?
這個問題當然也是一點都不難的:
是不是依然LOW到爆管挟?
我們可以將問題本身進一步“復雜化”轿曙,比如我們可以考慮點贊的人會為閱讀量帶來變化的情況:
每一次點贊都有q的概率引起一個新人(或者可以等價地說都有可能引起q個新人)來閱讀。
在這個情況下,問題就變得有趣了导帝。
我們先考慮最簡單的情況守谓,即此時單位時間新增的閱讀人數(shù)的基本值是固定的,而在基本值之上則是因為上一個時間點上點贊的人而帶來新增量舟扎。
先不考慮分布分飞,單獨來看“最概然”的情況,此時Δmt=pΔnt睹限,從而結(jié)果很簡單明了:
而此時點贊人數(shù)與總?cè)藬?shù)之間的關(guān)系是不會因為點贊導致更多的人閱讀這件事所干擾的譬猫,因此我們有:
接著,考慮分布的情況:
其中nt代表了t時刻文章的總閱讀數(shù)羡疗,而mt則是t時刻文章的總喜歡數(shù)染服,從而Δnt就是t時刻新增的閱讀數(shù),Δmt就是新增的喜歡數(shù)叨恨。因此柳刮,很容易就可以給出當新增閱讀數(shù)Δnt給定時新增點贊數(shù)Δmt的分布:
我們將組合系數(shù)用Γ函數(shù)拓展:
這么一來,很顯然現(xiàn)在分布函數(shù)P對所有參數(shù)都可以連續(xù)取值:
當x從0到n連續(xù)變化時痒钝,該函數(shù)可以做一個額外的歸一化秉颗,這個歸一化因子就是上述式的積分,其解析結(jié)果一下子沒算出來送矩,不過基本是非常接近1的蚕甥,所以下面我們既當1來算。
現(xiàn)在栋荸,我們可以給定t時刻新增閱讀數(shù)Δnt時t+1時刻的新增閱讀數(shù)Δnt+1的分布:
這就是說佣赖,假定在t時刻煤墙,總閱讀數(shù)nt的分布為P(i,t)堕扶,而新增閱讀數(shù)Δnt的分布為ΔP(i,t)徊件,那么下一刻的新增閱讀數(shù)分布就是:
進而對于總閱讀數(shù)的分布就有:
可見這里的關(guān)鍵就是遞增分布ΔP(i,t),掌握了ΔP(i,t)自然也就掌握了P(i,t)匆背。
已知ΔP(i,1) = δ(i-l)呼伸,從而我們自然就可以得到以下結(jié)果:
其中2F1是高斯超幾何函數(shù),從而這個結(jié)果我們可以用Mathematica等工具來求出(而且可以求導任意精度哦)钝尸,但卻沒法寫出比這個形式更簡潔的解析結(jié)了(當然是在l和i都不給具體值的情況下)蜂大。
我們可以預(yù)期,隨著t的增長蝶怔,ΔP(x, t)的形狀依然是和二次分布相似的鐘形奶浦,但可能會更緩和或者更尖銳,從而最終影響到的是我們計算其熵分布以及Wilson上下限的位置——這點讓人很不爽踢星。
所以澳叉,我們下面的人物就是盡可能找出這個近似解。
從上面給出的ΔP(i, 3)開始這個任務(wù)。
從簡單的分析可以知道成洗,由于ΔP(i, 2)非零的范圍為l到l(1 + q)五督,因此ΔP(i, 3)的非零范圍為l到l(1 + q + q2)。而ΔP(i, 2)對i的預(yù)期為l(1 + pq)瓶殃,ΔP(i, 3)對i的預(yù)期為l(1 + pq + (pq)2)充包,因此我們可以猜測ΔP(i, 3)的近似表達為:
當然,事實上這樣的表示當然只是近似的遥椿。
比如說基矮,由于q很可能不是1,所以事實上我們有如下性質(zhì):
其中用到了上面提到過的歸一化的結(jié)論冠场。
因此家浇,前面給出的近似表達實際上必然是先對世界結(jié)果做了歸一化的。當然這并不影響結(jié)論碴裙。
更主要的方面钢悲,就是我們利用Mathematics對部分情況做數(shù)值模擬后,會發(fā)現(xiàn)上述近似只能在一定程度上表示分布的最概然位置< x >舔株,整個分布形態(tài)與真實分布依然是存在差異的莺琳,一個更好的近似是如下形式:
推廣開去就是:
這個近似表達在t小的時候會較好,尤其是峰值左側(cè)载慈,峰值右側(cè)的偏離會較大芦昔。但其有點是期望值與峰值與實際情況相符,尤其是期望值這部分(峰值會存在一個小偏離娃肿,但不算很離譜,畢竟存在高斯超幾何函數(shù))珠十。
我們依然采用這個近似料扰,從而現(xiàn)在可以得到這么一個結(jié)果:
和之前的結(jié)果一樣,這個近似結(jié)果在t變大后會有誤差焙蹭,但總體來說還是可以在一定程度上對結(jié)果進行刻畫的晒杈。而且這個結(jié)果也還沒有歸一化。
進一步孔厉,我們就得到t時刻的點贊數(shù)分布:
可見拯钻,當p確定時,i的分布是t的函數(shù)撰豺,而且?guī)缀蹙褪嵌畏植肌?br> 但粪般,反過來,如果在t時刻我們已知道點贊數(shù)為x污桦,那么此時p的分布為何呢亩歹?
這是一個非常復雜的分布,因為nt本身就是p的函數(shù),而且還是一個很復雜的函數(shù)小作。
由于nt的形式
通過分析我們可以知道它隨著pq的增加而增加亭姥,同時也隨著t的增長而增長,是一個單調(diào)函數(shù)顾稀。從而x的最大值為
當q小于1時达罗,這個函數(shù)漸近為t的線性函數(shù);而當q等于1時静秆,該函數(shù)為t的二次型函數(shù)粮揉;當q大于1時,則是一個指數(shù)函數(shù)诡宗。
我們現(xiàn)在比較好奇與關(guān)心的滔蝉,是該函數(shù)的期望值與最大值的位置,這兩個一般并不一致塔沃,尤其在某些極端情況下蝠引。
我們這里主要考慮極大值所在的位置。
由于真正的p的分布是關(guān)于Beta分布的積分式蛀柴,非常難以分析螃概,而近似的結(jié)果中由于nt顯含p,所以也是一個非常難以下手的東西鸽疾,直接通過尋常的手段來求極大值的位置顯然是難以完成計算的吊洼,所以我們不妨換個思路。
在x的分布中制肮,我們知道在x=np的時冒窍,其概率達到最大值,因此一個很直接的想法就是:對于p的分布來說豺鼻,其最大值應(yīng)該也是出現(xiàn)在x=ntp的位置上综液,從而這是一個代數(shù)方程:
其中P = pq
。
分析方程的左右兩邊儒飒,我們發(fā)現(xiàn)它們都有一個必過的點:P = 1谬莹。
方程在P < 1的部分與P > 1的部分都有可能有解。
對于P < 1的部分桩了,左邊的曲線y = Pt+2很有可能是接近“」”形的附帽,同時左邊的曲線在P=0的位置上非零,所以有解的條件就是左邊的二次曲線的最低點落在[0,1]區(qū)間井誉,且最低點要“幾乎”不超過0蕉扮。其中第一個要求很容易滿足,第二個要求則最終給出:
當然颗圣,事實上這個條件可以進一步利用右側(cè)函數(shù)最低點時左側(cè)函數(shù)值隨著t的下確界來進一步細化:
很顯然慢显,這個由下確界得到的條件爪模,也只有在t很大的時候才會滿足了。
另一方面荚藻,在P > 1的部分屋灌,由于t必然是大于0的,所以方程左邊總會從某個P開始超越方程右邊应狱,從而這個P就是解共郭,而要出現(xiàn)這個局面,就要求在P = 1這個點上方程右邊的增長速度必須比左邊快疾呻。
通過簡單分析可以知道除嘹,兩個函數(shù)的一階導在P = 1這個點上是相同的,都是t + 2岸蜗,因此我們直接比較二階導尉咕,從而有解的條件為:
其中條件三來自P的最大值為q——這個同時也給出了前面就給出過的xmax,所以其實是自然滿足的璃岳。
同時年缎,我們可以注意到,這個條件實際上要求了左邊曲線在P = 1的右側(cè)是位于右邊曲線之下的铃慷,這也就是說在P = 1的左側(cè)单芜,左邊曲線在右邊曲線之上,而我們又知道P = 0的位置上犁柜,右邊曲線在左邊曲線之上洲鸠,這結(jié)合之前關(guān)于P < 1部分的“幾乎不超過零”要求就可以知道,在現(xiàn)在這個要求滿足的情況下馋缅,兩條曲線的焦點會發(fā)生在左邊近“」”形曲線那翹起的尾部扒腕。
也就是說,條件二同時給出了P < 1和P > 1有解的條件萤悴,而條件一只是給出了在平緩段有解的條件瘾腰。
從而,也就是說稚疹,滿足條件二時,上述方程會有三個解祭务,一個是P < 1的解内狗,一個是P = 1的解,而另一個是P > 1的解义锥;如果條件二不滿足柳沙,條件一滿足,那么上述方程依然會有三個解拌倍,其中兩個是P < 1的解赂鲤,一個是P = 1的解噪径;如果條件一也不滿足,那么我們只能確定在P = 1上有一個解数初,在P < 1的區(qū)域可能有也可能沒有解找爱。
當然,上面僅僅是從方程是否有解的角度來做判斷泡孩,實際的積分函數(shù)中由于代數(shù)方程的解附近的p對于積分都有貢獻车摄,所以實際上是代數(shù)方程左側(cè)所給出的曲線與右側(cè)所給出的曲線的“足夠接近”的區(qū)域中的p都會給出貢獻,從而并不完全符合上述代數(shù)方程——尤其在條件一與條件二都不滿足的區(qū)域仑鸥,這種情況給出了不局限在pq = 1
處的解——即p分布的最大值所在位置吮播。
我們可以先將上述代數(shù)方程簡化為如下形式:
從而,對于pq < 1
的部分眼俊,我們可以做近似意狠,取左側(cè)只保留p2項,從而有解:
這個解在P很小即使pbar的時候符合得很好疮胖。
另一方面环戈,我們知道這個方程必有P=1的解,于是在該點附近做展開:
因此获列,我們可以獲得在P=1附近的“中段”解:
以及谷市,最后,我們考慮P遠大于1的區(qū)域击孩,從而可以的大近似解:
從而迫悠,我們現(xiàn)在分解將P很小、P在1附近和P很大這三個區(qū)域的近似解找到了:
將上述三段曲線結(jié)合起來的方案有很多巩梢,這里采用如下的近似形式:
這個方案就是用P1本身的a次冪作為P2的權(quán)重因子创泄,因為我們知道P1在pq遠大于的區(qū)域是趨于1的,所以其本身就可以用作權(quán)重括蝠。
至此鞠抑,我們終于找到了當x已知時p的最概值的近似函數(shù),從而也就找到了我們所要求解的p的分布:
這個近似分布忌警,與實際情況的問題度還是很讓人滿意的搁拙。
有了分布,那么我們接下來當然可以討論“最大熵值”的問題了法绵,即在分布中處于峰值的1/e大小的p值箕速,在通訊中就可以看做是“半波寬”。
在《點贊的有多少人喜歡朋譬?》一文中已經(jīng)對一個最簡單的情況做過了分析盐茎,這里采用完全相同的手段來獲取這個最大熵下限p。
對于前面所得到的近似分布徙赢,其最大值當然是出現(xiàn)在我們所計算出的p的峰值近似值的位置字柠,從而我們可以構(gòu)造如下函數(shù):
很顯然探越,這個函數(shù)在目標峰值附近的時候是近似為1的,從而我們所要求的最大熵值就是該函數(shù)為1/e時的值:
它在nt足夠大的時候可以做Taylor展開得:
或者參照之前提到的那篇文章中的方案窑业,加上一個額外的修正項:
從而钦幔,我們現(xiàn)在有了關(guān)于在知道x和t的情況下,p的合理估計了:
因此数冬,至此节槐,我們關(guān)心的分布與p值隨著時間的演化問題,就算是有了一個初步的結(jié)果了拐纱。
當然铜异,很顯然的,有了這些其實問題距離最后的解決還有很遠秸架。因為我們一般而言對于這樣的系統(tǒng)揍庄,知道的是x,t都未必是已知的东抹,更別說q了蚂子。
我們往往需要做的,是在一個t足夠大以至于不再重要的情況下缭黔,并認為q是一個系統(tǒng)性參數(shù)從而不隨文章的不同而不同食茎,這么一個情況下來從x獲得p。
面對這樣的問題馏谨,顯然我們還有很長的路要走别渔。
本文遵守創(chuàng)作共享CC BY-NC-SA 4.0協(xié)議
通過本協(xié)議,您可以分享并修改本文內(nèi)容惧互,只要你遵守以下授權(quán)條款規(guī)定:姓名標示 哎媚、非商業(yè)性、相同方式分享喊儡。
具體內(nèi)容請查閱上述協(xié)議聲明拨与。
本文禁止一切紙媒,即印刷于紙張之上的一切組織艾猜,包括但不限于轉(zhuǎn)載买喧、摘編的任何應(yīng)用和衍生。網(wǎng)絡(luò)平臺如需轉(zhuǎn)載必須與本人聯(lián)系確認匆赃。
如果喜歡簡書淤毛,想要下載簡書App的話,輕戳這里~~
<small>私人推薦訂閱專題:《有意思的文章》炸庞、《嚴肅碼匠圈》</small>