分與合

大部分的拆分與組合闷叉，本質(zhì)都是在trade off
甚至不少明星大佬的離婚與結(jié)婚，也是在權(quán)衡即時(shí)的付出與未來(lái)潛在的收益（笑）

模型拆分訓(xùn)練

是否應(yīng)該拆分医增，拆分粒度的影響：
多場(chǎng)景一起訓(xùn)練與單獨(dú)拆分訓(xùn)練比奕纫，一起訓(xùn)練大模型數(shù)據(jù)量更大署惯，variance更低又官，但是對(duì)局部而言bias更大不傅，數(shù)據(jù)有被少數(shù)重度用戶dominate的風(fēng)險(xiǎn)。
而拆分訓(xùn)練赏胚，bias更小访娶，但如果特征維度，參數(shù)數(shù)量不變的話觉阅，會(huì)由于數(shù)據(jù)量減少會(huì)導(dǎo)致variance擴(kuò)大崖疤。
模型拆分維度訓(xùn)練：
拆分的維度是需要考量的，因?yàn)椴鸱趾蟮溆拢Ｐ蛣t不能保障不同維度間的排序能力劫哼。
1、拆分維度不影響排序
比如推薦中分用戶拆分割笙，分新老客权烧，其實(shí)這種拆分影響最小，因?yàn)橥扑]中不同用戶的樣本不用混排伤溉，影響不大般码，類似的還有分廣告位，時(shí)段等context特征乱顾。
2板祝、拆分維度部分影響排序
比如分廣告主訓(xùn)練cvr模型。由于不同廣告主之間本身產(chǎn)品面向用戶差異較大走净，同時(shí)我們很在意特定廣告主的預(yù)估準(zhǔn)確性券时，對(duì)部分廣告主嚴(yán)重高估低估都可能導(dǎo)致平臺(tái)收入受損，廣告主流失等問(wèn)題伏伯，所以我們有時(shí)候也會(huì)分廣告主進(jìn)行模型訓(xùn)練橘洞。當(dāng)然，這里有很多別的問(wèn)題说搅，比如數(shù)據(jù)隱私問(wèn)題等炸枣。
這里的業(yè)務(wù)整體介于混排和不充分混排之間（比如定向不同，或者分布差異大容易判定）蜓堕。
3抛虏、拆分維度影響排序
比如推薦中要分產(chǎn)品類型，這些產(chǎn)品在每次排序中可能都要進(jìn)行充分的混排套才，此時(shí)需要謹(jǐn)慎設(shè)計(jì)迂猴。如果上層有機(jī)制來(lái)代替直接排序，那么沒(méi)問(wèn)題背伴，而如果是混排沸毁，那么拆分導(dǎo)致不同維度間的排序能力不可控是很危險(xiǎn)的峰髓。

MTL輔助拆分：
由于拆分本身會(huì)極大程度影響數(shù)據(jù)量，拆分出來(lái)的部分由于數(shù)據(jù)量小很可能要suffering from large variance息尺。
所以一種更好進(jìn)行trade off的框架就是多任務(wù)訓(xùn)練携兵，拆分任務(wù)并用share param，或者加入?yún)?shù)的L1L2距離懲罰搂誉，相當(dāng)于加上constraints徐紧，能縮減因?yàn)椴鸱謳?lái)的過(guò)大的variance。同時(shí)如果去掉不同場(chǎng)景下不必要的特征炭懊，也能稍微降低一些variance并级。這個(gè)對(duì)比完全share所有參數(shù)的訓(xùn)練方式來(lái)說(shuō)，相當(dāng)于一種更弱且可以調(diào)節(jié)的constriants侮腹。
所以嘲碧，MTL其實(shí)某種程度就是更好地幫我們trade-off。通過(guò)調(diào)整不同任務(wù)的學(xué)習(xí)率父阻，share參數(shù)的數(shù)量愈涩，L2懲罰系數(shù)等，更好地優(yōu)化這個(gè)問(wèn)題加矛。
拆分與組合本質(zhì)的合理性是什么
其實(shí)本質(zhì)來(lái)自于履婉，他們是否屬于同一分布。如果我們假設(shè)樣本從統(tǒng)一總體分布中采出荒椭，那么應(yīng)該組合起來(lái)一起統(tǒng)計(jì)谐鼎。如果我們認(rèn)為樣本并非從同一總體中采出，那么我們應(yīng)該拆分統(tǒng)計(jì)趣惠。而現(xiàn)實(shí)中的這樣的假設(shè)往往太強(qiáng)了，即同特征表述下是同分布的（即兩個(gè)特征相同的用戶決策的隨機(jī)性來(lái)自相同的底層分布）身害，錯(cuò)誤的假設(shè)導(dǎo)致樣本并非嚴(yán)格來(lái)自同一總體味悄，因此帶來(lái)了天然的bias。且就算假設(shè)成立塌鸯，由于我們無(wú)法收集所有特征（譬如此時(shí)用戶所處環(huán)境溫度影響了決策）侍瑟，仍會(huì)有很大的bias（omitted var bias）。
通常丙猬，對(duì)于一些有明顯差異性的場(chǎng)景下涨颜，我們會(huì)自然而然地就會(huì)進(jìn)行拆分。而進(jìn)一步思考茧球，每一個(gè)人決策的底層系統(tǒng)都是不同的庭瑰，甚至每一次。所以拆分的合理性也來(lái)自于此抢埋。
何處收斂弹灭？其實(shí)都是在bias與variance之間trade off而已督暂，最終收斂到泛化誤差最小的狀態(tài)。

校準(zhǔn)穷吮，分桶數(shù)量逻翁，分維度如何選擇？

其實(shí)也是bias 與variance的選擇捡鱼，因?yàn)樾?zhǔn)的指標(biāo)八回，最終也是看泛化能力。

如何評(píng)估泛化能力：
一般來(lái)說(shuō)驾诈，比如隔日校準(zhǔn)辽社，拿今天的反饋數(shù)據(jù)校準(zhǔn)數(shù)值，然后評(píng)估明日數(shù)據(jù)集上的分段oe翘鸭。
影響泛化的參數(shù)：
1滴铅、分桶數(shù)量，分桶太少導(dǎo)致跟真實(shí)的bias過(guò)大（這里是假設(shè)不同段的數(shù)據(jù)來(lái)自于不同總體就乓，多個(gè)段被分到一個(gè)桶就被當(dāng)作了同一個(gè)總體汉匙，自然帶來(lái)了bias），分太多導(dǎo)致在單區(qū)間內(nèi)不置信variance太大生蚁。
1.1噩翠、分維度類似于分桶，分越多variance越大邦投。
2伤锚、校準(zhǔn)函數(shù)形式與參數(shù)的選擇，表達(dá)能力太弱導(dǎo)致bias大志衣，太強(qiáng)導(dǎo)致variance大屯援。
3、注意一些邊界點(diǎn)的處理念脯，對(duì)于少數(shù)outlier狞洋，可能會(huì)導(dǎo)致離譜的誤差。
分維度校準(zhǔn)有何影響：
從直觀大的scope看绿店，分維度縮小了數(shù)量吉懊，variance上升，bias下降假勿。
對(duì)于保序回歸借嗽，進(jìn)行分維度校準(zhǔn)，內(nèi)部保序不影響auc转培，但是不同維度之間是會(huì)影響的恶导。理論上，整體數(shù)據(jù)集應(yīng)該是負(fù)面影響堡距。（注意泛化性的標(biāo)準(zhǔn)甲锡，不能用測(cè)試集搜參數(shù)校準(zhǔn)）
不過(guò)在實(shí)際場(chǎng)景中兆蕉，也可能并沒(méi)有負(fù)面影響，比如我們?cè)谀信脩羯戏謩e校準(zhǔn)缤沦，真實(shí)排序能力其實(shí)不受影響虎韵，因?yàn)槟信臉颖酒鋵?shí)本身就是分隔的。但是在商品維度上分別校準(zhǔn)缸废，就有影響了包蓝。
其實(shí)分了維度后，某種程度上企量，也是降低了bias测萎，提升了vairance。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末届巩，一起剝皮案震驚了整個(gè)濱河市硅瞧，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌恕汇，老刑警劉巖腕唧，帶你破解...
沈念sama閱讀 206,968評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異瘾英，居然都是意外死亡枣接，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門缺谴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)但惶，“玉大人，你說(shuō)我怎么就攤上這事湿蛔“蛟” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵煌集，是天一觀的道長(zhǎng)妓肢。經(jīng)常有香客問(wèn)我，道長(zhǎng)苫纤，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任纲缓，我火速辦了婚禮卷拘，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘祝高。我一直安慰自己栗弟，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布工闺。她就那樣靜靜地躺著乍赫，像睡著了一般瓣蛀。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上雷厂，一...
開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1贊 285
城市分裂傳說(shuō)
那天惋增，我揣著相機(jī)與錄音，去河邊找鬼改鲫。笑死诈皿，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的像棘。我是一名探鬼主播稽亏，決...
沈念sama閱讀 38,432評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缕题！你這毒婦竟也來(lái)了截歉？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0贊 261
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤烟零，失蹤者是張志新（化名）和其女友劉穎瘪松，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體瓶摆，經(jīng)...
沈念sama閱讀 43,586評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡凉逛，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了群井。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片状飞。...
茶點(diǎn)故事閱讀 38,137評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖书斜，靈堂內(nèi)的尸體忽然破棺而出诬辈，到底是詐尸還是另有隱情，我是刑警寧澤荐吉，帶...
沈念sama閱讀 33,783評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布焙糟，位于F島的核電站，受9級(jí)特大地震影響样屠，放射性物質(zhì)發(fā)生泄漏穿撮。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一痪欲、第九天我趴在偏房一處隱蔽的房頂上張望悦穿。院中可真熱鬧，春花似錦业踢、人聲如沸栗柒。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0贊 19
一樁弒父案知举，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)瞬沦。三九已至太伊，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間逛钻，已是汗流浹背僚焦。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留绣的，地道東北人叠赐。一個(gè)月前我還...
沈念sama閱讀 45,595評(píng)論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像屡江，于是被迫代替她去往敵國(guó)和親芭概。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評(píng)論 2贊 345

分與合

模型拆分訓(xùn)練

校準(zhǔn)穷吮，分桶數(shù)量逻翁，分維度如何選擇？

推薦閱讀更多精彩內(nèi)容