婚戀配對(duì)實(shí)驗(yàn)
目的:
通過模擬匹配,探索常見的尋偶標(biāo)準(zhǔn),哪一種更大的概率找到對(duì)象盔几。
一、婚戀配對(duì)模擬規(guī)則:
- 按照一定規(guī)則生成了 1 萬男性 + 1 萬女性樣本:
- 在配對(duì)實(shí)驗(yàn)中袱瓮,這 2 萬個(gè)樣本具有各自不同的個(gè)人屬性(財(cái)富、內(nèi)涵爱咬、樣貌)尺借,每項(xiàng)屬性都有一個(gè)得分。
- 財(cái)富值符合指數(shù)分布精拟,內(nèi)涵和顏值符合正態(tài)分布燎斩。
- 三項(xiàng)的平均值都為 60 分,標(biāo)準(zhǔn)差都為 15 分蜂绎。
- 模擬實(shí)驗(yàn)栅表,基于現(xiàn)實(shí)世界的提煉以及適度簡化,概括了三個(gè)最主流的擇偶策略:
- 策略1:門當(dāng)戶對(duì)师枣,要求雙方三項(xiàng)指標(biāo)加和的總分接近怪瓶,差值不超過 20 分(算均值);
- 策略2:男才女貌践美,男性要求女性的外貌分比自己高出至少 10 分洗贰,女性要求男性的財(cái)富分比自己高出至少 10 分;
- 策略3:志趣相投陨倡、適度引領(lǐng)哆姻,要求對(duì)方的內(nèi)涵得分在比自己 低 10 分 ~ 高 10分 之間,且外貌和財(cái)富兩項(xiàng)與自己的得分差值都在 5 分之內(nèi)玫膀。
- 這里按單項(xiàng)選擇矛缨,用男性去匹配女性,每一輪實(shí)驗(yàn)中帖旨,我們將三種策略隨機(jī)平分給所有樣本(即采用每種策略的男性有 3333 個(gè)樣本)
- 我們?yōu)閱紊砟信S機(jī)選擇一個(gè)對(duì)象箕昭,若對(duì)方互相符合要求就算配對(duì)成功,配對(duì)失敗的男女則進(jìn)入下一輪配對(duì)解阅。
二落竹、樣本數(shù)據(jù)處理
-
處理樣本數(shù)據(jù)
- 在配對(duì)實(shí)驗(yàn)中,這 2 萬個(gè)樣本具有各自不同的個(gè)人屬性(財(cái)富货抄、內(nèi)涵述召、樣貌),每項(xiàng)屬性都有一個(gè)得分蟹地。
- 財(cái)富值符合指數(shù)分布积暖,內(nèi)涵和顏值符合正態(tài)分布。
- 三項(xiàng)的平均值都為 60 分怪与,標(biāo)準(zhǔn)差都為 15 分夺刑。
要求:
- 構(gòu)建函數(shù)實(shí)現(xiàn)樣本數(shù)據(jù)生成模型,函數(shù)參數(shù)之一為“樣本數(shù)量”,并用該模型生成 1 萬男性 + 1 萬女性數(shù)據(jù)樣本(包括三個(gè)指標(biāo):財(cái)富遍愿、內(nèi)涵存淫、樣貌)
- 繪制柱狀圖查看每個(gè)人的屬性分值情況
提示:
- 正態(tài)分布:np.random.normal(loc = 60,scale = 15.size = n)
- 指數(shù)分布:np.random.exponential(scale = 15,size = n) + 45
數(shù)據(jù)生成后的格式:
-
生成 99 個(gè)男性、99 個(gè)女性樣本數(shù)據(jù)沼填,分別針對(duì)三種策略構(gòu)建算法函數(shù)(核心:篩選人數(shù))
策略1:門當(dāng)戶對(duì)桅咆,要求雙方三項(xiàng)指標(biāo)加和的總分接近,差值不超過 20 分坞笙;
策略2:男才女貌岩饼,男性要求女性的外貌分比自己高出至少 10 分,女性要求男性的財(cái)富分比自己高出至少 10 分羞海;
策略3:志趣相投、適度引領(lǐng)曲管,要求對(duì)方的內(nèi)涵得分在比自己低 10 分 ~ 高 10分之間却邓,且外貌和財(cái)富兩項(xiàng)與自己的得分差值都在 5 分之內(nèi)。
每一輪實(shí)驗(yàn)中院水,我們將三種策略隨機(jī)平分給所有的樣本腊徙,這里則是三種分別 33 人。
-
這里不同策略匹配結(jié)果可能重合檬某,所以為了簡化模型
→ 這里先進(jìn)行策略 1 模擬
→ 模擬成功后去掉該輪成功匹配的女性數(shù)據(jù)撬腾,再進(jìn)行策略 2 模擬
→ 模擬成功后去掉該輪成功匹配的女性數(shù)據(jù),再進(jìn)行策略 3 模擬
要求:
- 生成樣本數(shù)據(jù)
- 給男性樣本數(shù)據(jù)恢恼,隨機(jī)分配策略選擇 → 這里以男性為出發(fā)作為策略選擇方
- 嘗試做第一輪匹配民傻,記錄成功的匹配結(jié)果,并篩選出失敗的男女進(jìn)入下一輪匹配
- 構(gòu)建模型场斑,并模擬 1 萬男性 + 1 萬女性的配對(duì)實(shí)驗(yàn)
- 通過數(shù)據(jù)分析漓踢,回答下面的問題:
- 百分之多少的樣本數(shù)據(jù)成功匹配到了對(duì)象?
- 采取不同擇偶策略的匹配成功率分別是多少漏隐?
- 采取不同擇偶策略的男性各項(xiàng)平均分是多少喧半?
提示:
- 擇偶策略評(píng)判標(biāo)準(zhǔn):
- 若匹配成功,則該男性與被匹配在這一輪都算成功青责,退出游戲
- 若匹配失敗挺据,則該男性與被匹配在這一輪都算失敗,并進(jìn)行下一輪
- 若同時(shí)多個(gè)男性選擇了同一個(gè)女性脖隶,且滿足成功配對(duì)要求扁耐,則綜合評(píng)分高的男性算為匹配成功
- 構(gòu)建空的數(shù)據(jù)集,用于存儲(chǔ)匹配成功的數(shù)據(jù)
- 每一輪匹配之后产阱,刪除成功匹配的數(shù)據(jù)之后做葵,進(jìn)入下一輪,這里刪除數(shù)據(jù)用 df.drop()
- 這里建議用 while 去做迭代 → 當(dāng)該輪沒有任何配對(duì)成功心墅,則停止實(shí)驗(yàn)酿矢。
匹配成功的數(shù)據(jù)存儲(chǔ)格式:
結(jié)論1:
71.22% 的樣本數(shù)據(jù)成功匹配到了對(duì)象
-
策略1 的匹配成功率為 100.00%
策略2 的匹配成功率為 39.03%
策略3 的匹配成功率為 73.78%
即門當(dāng)戶對(duì)匹配率最高榨乎,其次是志趣相投,男才女貌的匹配率較低瘫筐。
-
擇偶策略1的男性 → 財(cái)富均值為 60.15蜜暑,內(nèi)涵均值 59.85,外貌均值為 59.84
擇偶策略2的男性 → 財(cái)富均值為 72.05策肝,內(nèi)涵均值 60.22肛捍,外貌均值為 55.17
擇偶策略3的男性 → 財(cái)富均值為 57.80,內(nèi)涵均值 59.91之众,外貌均值為 57.80三個(gè)策略均值相差不大
-
通過箱型圖查看整體趨勢(shì)可以得出拙毫,策略2 的財(cái)富值明顯較高;內(nèi)涵方面 3 個(gè)策略都相差不大棺禾;外貌方面缀蹄,策略1 和 策略3 外貌的最高值高于策略2。
-
以 99 男 + 99 女的樣本數(shù)據(jù)膘婶,繪制匹配折線圖
要求:
- 生成樣本數(shù)據(jù)缺前,模擬匹配實(shí)驗(yàn)
- 生成繪制數(shù)據(jù)表格
- bokeh 制圖
- 找了設(shè)置圖例,并且可交互(消隱身模式)
提示:
bokeh 制圖時(shí)悬襟,y 軸為男性衅码,x 軸為女性
繪制數(shù)據(jù)表格中,需要把男女性的數(shù)字編號(hào)提取出來脊岳,這樣圖表橫縱軸好識(shí)別
-
bokeh 繪制折線圖示意:p.line([0,女性數(shù)字編號(hào),女性數(shù)字編號(hào)],[男性數(shù)字編號(hào),男性數(shù)字編號(hào),0])
-
生成不同類型男女配對(duì)成功率矩陣圖
要求:
以之前 1 萬男 + 1 萬女實(shí)驗(yàn)的結(jié)果為數(shù)據(jù)
-
按照財(cái)富值逝段、內(nèi)涵值、外貌值分別給三個(gè)區(qū)間割捅,以區(qū)間來評(píng)判“男女類型”
- 高分(70 - 100)惹恃,中分(50 - 70),低分(0 -50)
- 按照此類分布棺牧,男女性都可以分為 27 中類型:財(cái)高品高顏高巫糙,財(cái)高品中顏高,財(cái)高品低顏高 等
-
bokeh 制圖
- 散點(diǎn)圖
- 27 行 * 27列颊乘,三點(diǎn)的顏色深淺代表匹配成功率
提示:
注意繪圖的數(shù)據(jù)結(jié)構(gòu)
這里散點(diǎn)圖通過 xy 軸定位數(shù)據(jù)参淹,然后通過設(shè)置顏色的透明度來表示匹配成功率
-
alpha 字段為每種類型匹配成功率標(biāo)準(zhǔn)化之后的結(jié)果,再乘以一個(gè)參數(shù)
→ data['alpha'] = (data['chance'] - data['chance'].min()) /(data['chance'].max() - data['chance'].min()) * 8
Bokeh 繪圖數(shù)據(jù)結(jié)構(gòu):
由上圖可知乏悄,男性財(cái)中品中顏低 與 女性財(cái)?shù)推分蓄佒?的匹配率較高浙值,相當(dāng)于 顏值較低的普通男性 與 財(cái)富值較低的普通女性 的匹配率較高。