背景:基于大規(guī)模的語言模型。在pretrain-fineTuning兩階段的范式下,pretrain 階段,數(shù)據(jù)量較大,學(xué)習(xí)到的知識泛化能力較強。fine tuning階段的...
![240](https://cdn2.jianshu.io/assets/default_avatar/7-0993d41a595d6ab6ef17b19496eb2f21.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
背景:基于大規(guī)模的語言模型。在pretrain-fineTuning兩階段的范式下,pretrain 階段,數(shù)據(jù)量較大,學(xué)習(xí)到的知識泛化能力較強。fine tuning階段的...
任務(wù)背景:社區(qū)問答中,識別用戶相似的問題漾岳。主要應(yīng)用在兩個產(chǎn)品中。1是粉寞,當(dāng)用戶提問時尼荆,需要一段時間后,才會有反饋唧垦。此時捅儒,可以給用戶推薦相似問題的已有答案。2是,需要減少相似的問...
1. 模型結(jié)構(gòu) orginal dropout : 對單個樣本野芒,進行單次drop out蓄愁。 2. 思想 stacking方法中的子模型双炕。事實證明狞悲,用多個子模型做模型融合可...
場景:有監(jiān)督模型中,利用dropout的方式妇斤,增強模型的泛化能力摇锋。 drop-out在無監(jiān)督學(xué)習(xí)上的應(yīng)用 :用于對比學(xué)習(xí)。同個query站超,drop前后的預(yù)測結(jié)果相同荸恕。不同qu...
背景:隨著科技發(fā)展生宛。出現(xiàn)處理更多的高維數(shù)據(jù),比如圖像肮柜、語音陷舅。1)傳統(tǒng)的統(tǒng)計學(xué)-機器學(xué)習(xí)方法:由于數(shù)據(jù)維度過高,數(shù)據(jù)單調(diào)审洞,噪聲分布廣莱睁,傳統(tǒng)的特征工程很難奏效。2)降維方法芒澜,如線...
DataLoader: 數(shù)據(jù)的迭代器仰剿,數(shù)據(jù)是model直接可用的格式。分成一個個的batch痴晦。 DataSet : 根據(jù)索引南吮,拿到數(shù)據(jù)后。對數(shù)據(jù)進行 自定義的處理阅酪。具體處理邏...
最近研究poly-encoder 旨袒,用的是pytorch 進行的開發(fā)。在代碼優(yōu)化時术辐,調(diào)研到torch本身的DataParallel實現(xiàn)砚尽,在效率上不如distributedDa...
boosting思想:疊加多個弱模型,漸進的逼近真實情況辉词。問題在于:如何保證擬合方向正確必孤,如何疊加弱模型的結(jié)果。 問題: 以什么目標(biāo)學(xué)習(xí)下一棵樹,保證損失函數(shù)的迭代方向正確敷搪?...
Redis是一種基于客戶端-服務(wù)端模型以及請求/響應(yīng)協(xié)議的TCP服務(wù)兴想。這意味著通常情況下一個請求會遵循以下步驟: 客戶端向服務(wù)端發(fā)送一個查詢請求,并監(jiān)聽Socket返回赡勘,通常...
廣義上搜索引擎的“相關(guān)推薦”包含這么幾個模塊: 1嫂便、suggest模塊:輸入query(關(guān)鍵詞)過程中出現(xiàn)在搜索框下方的智能推薦。 2闸与、相關(guān)搜索模塊:就是搜索結(jié)果底部的那堆文...
場景:幫助用戶找到商品毙替,達成某個滿減門檻(比如滿400減50),完成跨店湊單践樱。 對場景的理解:認(rèn)為湊單的重要場景是當(dāng)用戶已經(jīng)加購了商品A厂画,還想找一個能一起打包買的商品B,而不...
第一問題描述 對于 idea 下的 maven 工程拷邢,特別是從其他地方導(dǎo)入的新工程袱院,右邊 maven 管理工具中 dependencies 若出現(xiàn)紅色波浪線。通常用以下方式嘗...
網(wǎng)絡(luò)構(gòu)成中瞭稼,邊上帶了很豐富的交互信息忽洛,如何同時利用這部分信息進行節(jié)點Embedding。比如“用戶”-“股票“之間的交易網(wǎng)絡(luò)弛姜,邊上帶有豐富的“時間脐瑰、價格、數(shù)量”特征廷臼,如何結(jié)合...
線上場景: 首頁推薦 場景特點: 業(yè)務(wù)形態(tài)多樣苍在、消費場景多樣;推薦系統(tǒng)荠商,需要準(zhǔn)確捕獲用戶的興趣點或用戶的實時意圖寂恬。而且我們推薦的場景也會隨著用戶興趣、地點莱没、環(huán)境初肉、時間等變化而...
罪魁禍?zhǔn)卓赡苁悄愕?tmp目錄由于某種原因沒有足夠的空間。在pip安裝期間饰躲,pip將使用臨時目錄來執(zhí)行執(zhí)行安裝所需的操作(例如下載源等)牙咏。因此,如果您在/tmp中沒有足夠的空...
典型場景:圖像檢索嘹裂。高維檢索妄壶。 本質(zhì): 很多稠密向量,要迅速找到某個點的臨近點寄狼,并認(rèn)為這是相似度最高的點丁寄。 原始數(shù)據(jù)的表達形式為,N維連續(xù)值的向量。如果針對一個query伊磺,進...
就是隨機的生成一些超平面(如1024個)壤蚜,哈希方法是看一個特征向量對應(yīng)的點,是在平面的哪一側(cè)徊哑,從而得到一組1,-1 的列表 l 。再用新生成的向量去計算相似度聪富。= (1024...