新浪金融數(shù)據(jù)分析面經(jīng)

https://zhuanlan.zhihu.com/p/36539125
https://zhuanlan.zhihu.com/p/56175215

9.24 筆試

9.29約面試推到國慶后 10.16現(xiàn)場一面

自我介紹

實習最大的收獲是什么？

挖數(shù)據(jù)競賽沼侣，具體是怎么做的烤蜕？

你能講一下變量篩選IV和基于隨機森林的差異么？隨機森林的重要性有兩種定義练般，我只回答出了一種面粮。

————————————————————————————————————————
IV叫做信息價值毅臊，是基于信息論得到的榕吼，是每箱特征的加權WOE饿序，也可以用相對熵來理解，刻畫的就是這個變量的好壞客戶的分布差異羹蚣，如果差異越大原探，對好壞客戶的區(qū)分度就越強，反之則區(qū)分度就比較小顽素。

基于特征重要度的變量篩選方法是目前機器學習最熱門的方法之一咽弦，其原理主要是通過隨機森林和GBDT等集成模型選取特征的重要度。對于隨機森林胁出，通忱牖＃可以用基尼指數(shù)（Gini index）或者袋外數(shù)據(jù)（OOB）錯誤率作為評價指標來衡量。

兩種計算方法：

選擇袋外數(shù)據(jù)計算袋外誤差划鸽，隨機對袋外數(shù)據(jù)所有樣本的特征加入隨機干擾，再次計算袋外誤差。當改變樣本在該特征的值裸诽，若袋外數(shù)據(jù)準確率大幅度下降嫂用，則該特征對于樣本的預測結果有很大影響，說明特征的重要度比較高丈冬。因此可以那兩個袋外數(shù)據(jù)誤差的均值來刻畫特征的重要度嘱函。
第j個特征在隨機森林所有決策樹中節(jié)點分裂不純度的平均改變量。我的理解就是當前節(jié)點可以計算基尼指數(shù)埂蕊，當前節(jié)點依據(jù)某個特征分裂為左右節(jié)點后可以得到左節(jié)點的基尼指數(shù)往弓，也可以得到左、右節(jié)點的基尼指數(shù)蓄氧，這樣既可計算一個差值函似，也就是在單個數(shù)中某個特征節(jié)點分裂不純度的改變量，再將每棵樹中的進行平均既可得到平均值喉童，最后進行歸一化得到重要性評分撇寞。

————————————————————————————————————————

評分卡模型中，為什么要進行分箱堂氯？講一下卡方分箱蔑担？分箱后為什么要進行WOE編碼？

—————————————————————————————————————————

為什么要進行分箱咽白？

特征分箱可以有效處理特征中的異常值和缺失值啤握。
特征分箱后，數(shù)據(jù)和模型會更穩(wěn)定晶框。
特征分箱可以簡化邏輯回歸模型排抬，降低模型過擬合的風險，提高模型的泛化能力三妈。
將所有特征統(tǒng)一變?yōu)轭悇e型變量畜埋。
分箱后的變量才可以使用標準的評分卡模式，即對不同的分數(shù)段進行評分畴蒲。

卡方分箱：
卡方檢驗就是用來刻畫某個變量與因變量是不是有顯著關系的悠鞍。
可以用實際次數(shù)與預期次數(shù)的差的平方除以預期次數(shù)進行計算。

Chimerge 分箱是目前最流行的分箱方式之一模燥，其基本思想是如果兩個相鄰的區(qū)間具有類似的類分布咖祭，則這兩個區(qū)間合并；否則蔫骂，它們應保持分開么翰。Chimerge通常采用卡方值來衡量兩相鄰區(qū)間的類分布情況。

輸入：分箱的最大區(qū)間數(shù) $n$
初始化：離散值可以轉化為壞客戶比率辽旋，根據(jù)要離散的屬性進行排序浩嫌，進行等頻分箱檐迟，若有缺失值，則單獨一箱码耐。
合并區(qū)間追迟，計算每一對相鄰區(qū)間的卡方值，卡方值越小說明兩箱差異越小骚腥。將卡方值最小的一對區(qū)間合并敦间。

上式刻畫的是實際數(shù)量和合并后的期望數(shù)量的差異。

分箱后：

對于壞客戶比例為 0 或 1 的分箱進行合并 (一個分箱內不能全為好客戶或者全為壞客戶)束铭。
對于分箱后某一箱樣本占比超過 95% 的箱子進行刪除廓块。
檢查缺失分箱的壞客戶比例是否和非缺失分箱相等，如果相等契沫，進行合并带猴。

為什么要進行WOE編碼？

WOE編碼的形式與邏輯回歸相對應埠褪。都有l(wèi)n(壞/好)
可以提升模型的預測效果浓利。
將自變量都利用WOE編碼，規(guī)范到同一尺度钞速，都轉化為好壞客戶的差異贷掖。
WOE變量能反應自變量取值的貢獻情況。
有利于對變量的每個分箱進行評分渴语。
轉化為離散變量后便于分析變量與變量之間的相關性苹威。
與ONE-HOT編碼相比，可以保證變量的完整性驾凶，同時避免稀疏矩陣和維數(shù)災難牙甫。
WOE變量可以為邏輯回歸引入非線性關系。

—————————————————————————————————————————

xgboost與lightgbm的差異调违？

—————————————————————————————————————————
我每次都只答出預排序和直方圖窟哺。。還要反復看技肩。

1.速度和內存上的優(yōu)化：

xgboost用的是預排序（pre-sorted）的方法且轨，空間消耗大。這樣的算法需要保存數(shù)據(jù)的特征值虚婿，還保存了特征排序的結果（例如排序后的索引旋奢，為了后續(xù)快速的計算分割點），這里需要消耗訓練數(shù)據(jù)兩倍的內存然痊。其次至朗，時間上也有較大的開銷，在遍歷每一個分割點的時候，都需要進行分裂增益的計算偿乖，消耗的代價大。
LightGBM用的是直方圖（Histogram）的決策樹算法筑凫，直方圖算法的基本思想是先把連續(xù)的浮點特征值離散化成k個整數(shù)嫌变，同時構造一個寬度為k的直方圖真仲。在遍歷數(shù)據(jù)的時候，根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計量初澎，當遍歷一次數(shù)據(jù)后，直方圖累積了需要的統(tǒng)計量虑凛，然后根據(jù)直方圖的離散值碑宴，遍歷尋找最優(yōu)的分割點。
2.準確率上的優(yōu)化：

xgboost 通過level（depth）-wise策略生長樹桑谍， Level-wise過一次數(shù)據(jù)可以同時分裂同一層的葉子延柠，容易進行多線程優(yōu)化，也好控制模型復雜度锣披，不容易過擬合贞间。但實際上Level-wise是一種低效的算法，因為它不加區(qū)分的對待同一層的葉子雹仿，帶來了很多沒必要的開銷增热，因為實際上很多葉子的分裂增益較低，沒必要進行搜索和分裂胧辽。
LightGBM通過leaf-wise（best-first）策略來生長樹峻仇， Leaf-wise則是一種更為高效的策略，每次從當前所有葉子中邑商，找到分裂增益最大的一個葉子摄咆，然后分裂，如此循環(huán)人断。因此同Level-wise相比吭从，在分裂次數(shù)相同的情況下，Leaf-wise可以降低更多的誤差恶迈，得到更好的精度涩金。Leaf-wise的缺點是可能會長出比較深的決策樹，產(chǎn)生過擬合蝉绷。因此LightGBM在Leaf-wise之上增加了一個最大深度的限制鸭廷，在保證高效率的同時防止過擬合。
3.對類別型特征的處理：

xgboost不支持直接導入類別型變量熔吗，需要預先對類別型變量作亞編碼等處理辆床。如果類別型特征較多，會導致啞變量處理后衍生后的特征過多桅狠，學習樹會生長的非常不平衡讼载，并且需要非常深的深度才能來達到較好的準確率轿秧。
LightGBM可以支持直接導入類別型變量（導入前需要將字符型轉為整數(shù)型，并且需要聲明類別型特征的字段名）咨堤，它沒有對類別型特征進行獨熱編碼菇篡，因此速度比獨熱編碼快得多。LightGBM使用了一個特殊的算法來確定屬性特征的分割值一喘∏梗基本思想是對類別按照與目標標簽的相關性進行重排序，具體一點是對于保存了類別特征的直方圖根據(jù)其累計值(sum_gradient/sum_hessian)重排序,在排序好的直方圖上選取最佳切分位置凸克。

—————————————————————————————————————————

與線性回歸一樣议蟆，邏輯回歸的假設是什么？

————————————————————————————————————————

因變量滿足二項分布
零均值假設：隨機誤差項均值為0萎战。
同方差假設：隨機誤差項方差相同咐容。若滿足這一特性，稱模型具有同方差性
無自相關假設：若不滿足這一特性蚂维，稱模型具有自相關性（Autocorrelation）戳粒。

線性回歸的假設：

自變量與因變量線性相關
自變量之間相互獨立
誤差項之間相互獨立
誤差項滿足正態(tài)分布，期望為0
自變量與誤差項之間相互獨立

————————————————————————————————————————

講一下你的科研經(jīng)歷虫啥，你認為你論文的優(yōu)勢在哪蔚约？

你的研究生學習是統(tǒng)計多一些還是算法多一些？

y標簽是怎么定義的孝鹊？

反問：

新浪金融平時的具體工作是什么呢炊琉？風險 + 轉化

新浪金融想對比別的平臺的優(yōu)勢是什么呢？有的名義上的數(shù)據(jù)驅動又活，其實還是人工驅動苔咪；新浪金融做到了從上到下的數(shù)據(jù)驅動

面試官小哥哥挺溫和的，還跟我講了他們對于校招和社招的不同要求柳骄，

校招：邏輯性一定要好团赏，你得能把一個東西講明白；而且統(tǒng)計知識什么的你得會耐薯，總不能招你進來再學吧舔清；

社招：更注重的是業(yè)務sense和對業(yè)務的理解和把控

還和我講了一下未來風控的分支和發(fā)展方向。

感覺自己答得一般般曲初，好多細節(jié)只是看過說不出來体谒，不過確實收獲很多。