1、隨機采集實時流數(shù)據(jù) 如何保證隨機性且概率均等?
http://wenda.chinahadoop.cn/question/383
2刨沦、從左上角到右下角 每個格子權(quán)重不一 如何路徑最短?
3、反轉(zhuǎn)鏈表稻扬?
4、數(shù)組元素 最快查詢個數(shù)時間羊瘩?
5泰佳、離散數(shù)據(jù) 用在Wide&Deep的哪一側(cè)?
6尘吗、LightGBM為啥快逝她?
GBDT 準確率高 一次 二次;
XGBoost:連續(xù)型睬捶;分割點黔宛;信息增益率 信息增益 基尼系數(shù);
普通決策樹 分桶擒贸;倆桶臀晃?
XGBoost 連續(xù) 排序 唯一值 0123--100相鄰中值切割點;窮舉介劫;數(shù)據(jù)集中值徽惋;
Wide 離散;LR:連續(xù)值離散化座韵;
7险绘、梯度下降一階 牛頓法二階導數(shù);深度學習:變形誉碴;
先用梯度下降 最優(yōu) 慢宦棺;Adam跑大概范圍 梯度下降;
7翔烁、AUC模型訓練中 迭代如何計算渺氧?ROC曲線如何形成?
卡定不同閾值-指標 訓練集總樣本 概率 0-1 正例 假陽性真陽性蹬屹;
0.7-0.8AUC 卡定不同閾值 輸出不同結(jié)果的平均侣背;
8、ALS與ALSW2有啥區(qū)別慨默?
9贩耐、ALS的優(yōu)化方法?
10厦取、模型評估潮太,ctr瀏覽時長等價打分數(shù)據(jù)如何使用?
用戶正樣本;負樣本铡买;
規(guī)則 同類的 過濾更鲁;
11、兩個字符串 最長子串奇钞?
12澡为、Gini原理?交叉熵景埃?信息熵媒至?
不確定性 混亂程度 不純度;分類中谷徙?分類好壞拒啰?
兩個分布的差異 分類后的 與真實的;
數(shù)據(jù)間差異程度完慧?根據(jù)某個指標 一堆-兩堆谋旦; 每一堆數(shù)據(jù)各自的差異度 加權(quán);
13骗随、為啥用FTRL優(yōu)化Wide蛤织?
14、DeepFM與WideFM哪個好 為啥鸿染?
15指蚜、隨機森林與XGBoost?
Bagging并行 多個決策樹 均值涨椒;
XGBoost 決策樹 擬合前幾輪預測殘差 Boosting摊鸡;殘差;
LightGBM 子過程并行 但仍是Boosting蚕冬;
Stacking:Bag基礎(chǔ)上改進免猾,投票預測結(jié)果,家模型
16囤热、KCNN原理猎提?這里為啥選擇卷積?注意力網(wǎng)絡(luò)旁蔼;
17锨苏、對于用戶行為數(shù)據(jù)如何處理?空白數(shù)據(jù)棺聊?如何提高置信伞租?
18、LSH怎么工作限佩?輸入輸出是啥葵诈?內(nèi)容輸入啥裸弦?用戶輸入哪些?
19作喘、如何過擬合理疙?
20、講講Word2Vec中 cbow與skip-gram模型徊都?
21沪斟、深度模型訓練時广辰,初始化權(quán)重可以為0嗎暇矫?為啥?
22择吊、DropOut李根?還有啥?
BN:batch normolization; 每層計算后 結(jié)果分布 每層正態(tài) 前一層正態(tài) 本層正態(tài)几睛;
23房轿、Spark如何按照某字段groupby?如何統(tǒng)計TopK?
24所森、Kafka如何實現(xiàn)數(shù)據(jù)同步囱持?Partition?參數(shù)含義要把握焕济!
25纷妆、離線召回?排序晴弃?調(diào)用模型還是數(shù)據(jù)表掩幢?服務(wù)部署?調(diào)度邏輯順序上鞠?