2.adaboost和xgboost的區(qū)別消略;xgboost的并行體現(xiàn)在哪(工程上的并行堂飞,不是計算上的并行)(猿輔導)
參考答案
Adaboost與GBDT兩者boosting的不同策略是兩者的本質(zhì)區(qū)別西傀。
Adaboost強調(diào)Adaptive(自適應(yīng))泉沾,通過不斷修改樣本權(quán)重(增大分錯樣本權(quán)重上岗,降低分對樣本權(quán)重)凄鼻,不斷加入弱分類器進行boosting。
Xgboost則是旨在不斷減少殘差(回歸)喂分,可以人為定義損失函數(shù)(可以是最小平方差锦庸、logistic
loss function、hinge loss function或者人為定義的loss function)蒲祈,只需要知道該loss function對參數(shù)的一階甘萧、二階導數(shù)便可以進行boosting,其進一步增大了模型的泛華能力
==兩者本質(zhì)區(qū)別還是boosting的策略讳嘱。adaboost強調(diào)的是對分錯樣本的權(quán)重增加幔嗦,不斷加入弱學習器。XGboost則是在于減少殘差
==adaboost還是比較傳統(tǒng)的那種boosting沥潭,方向是增加分錯的權(quán)重;而GBDT就是比較特殊的嬉挡,它的方向是降低殘差。(4.16
3.K-means、K-means?算法的優(yōu)缺點(bigo河爹、字節(jié)跳動、京東、廣聯(lián)達)
參考答案
優(yōu)點:當潛在的簇形狀是凸面,簇與簇之間較明顯当叭,且簇大小相近時,結(jié)果較理想讥裤。對于處理大數(shù)據(jù),該算法高效且伸縮性較好。
缺點:要事先確定k见坑;對于初始簇中心敏感戴尸,常以局部最優(yōu)結(jié)束,對孤立點敏感坦胶,不適于發(fā)現(xiàn)非凸的簇或大小差別大的簇纪岁。
==kmeans這么多公司考嗎遗增?這不就是一個簡單的聚類嗎叫惊?不過優(yōu)缺點還真不好說。(4.16
4.KNN做修、K-Means區(qū)別(京東)
參考答案
KNN是分類算法霍狰,它是監(jiān)督學習抡草,知道了結(jié)果去效驗結(jié)果是否正確。 K-Means是聚類算法蚓耽,它是非監(jiān)督學習渠牲,它需要先自己算去一個結(jié)果旋炒。
答案解析
5.介紹一下k-means,你的數(shù)據(jù)如何處理步悠,模型的輸出是什么?(浦發(fā)銀行)
參考答案
介紹kmeans:
第一步:數(shù)據(jù)歸一化瘫镇、離群點處理后鼎兽,隨機選擇k個聚類質(zhì)心
第二步:所有數(shù)據(jù)點關(guān)聯(lián)劃分到離自己最近的質(zhì)心,形成k個簇铣除;
第三步:重新計算每個簇的質(zhì)心谚咬;
重復第二步、第三步尚粘,直到簇不發(fā)生變化或達到最大迭代次數(shù)择卦;
==介紹一下算法步驟,首先對數(shù)據(jù)進行歸一化郎嫁,處理離群點秉继,然后選擇K個聚類中心;將所有的點分到相對最近的聚類中心泽铛,這樣就形成了K個簇尚辑;然后對每個簇重新計算聚類中心
數(shù)據(jù)如何處理:
為了防止均值和方差大的維度將對數(shù)據(jù)的聚類產(chǎn)生決定性影響,所以在聚類前我們對數(shù)據(jù)進行了歸一化處理盔腔。
==主要就是歸一化
模型輸出:
n個維度杠茬,輸出為?的向量。[0 1 1 0 1]弛随,就是把第1瓢喉,4維分為一類,其他分為另一類舀透。
答案解析
kmeans聚類的過程和步驟栓票。
機器學習與數(shù)據(jù)挖掘-2
6.實習內(nèi)容中:RFM模型和kmeans(猿輔導)
參考答案
RFM模型根據(jù)客戶活躍程度和交易金額的貢獻,進行客戶價值細分的 一種方法盐杂。它能夠識別優(yōu)質(zhì)客戶逗载;可以制定個性化的溝通和營銷服務(wù),為更多的營銷決策提供有力支持链烈;能夠衡量客戶價值和客戶利潤創(chuàng)收能力厉斟。
R(Recency)——最近一次交易時間間隔。
F(Frequency)——客戶在最近一段時間內(nèi)交易次數(shù)强衡。
M(Monetray)——客戶最近一段時間內(nèi)交易金額擦秽。
==RFM與隨機森林無關(guān)哈,準確的說,是根據(jù)客戶活躍程度和交易金額的貢獻感挥,來對客戶價值進行細分的一種方法缩搅。用來給決策提高更加有力的支持。
三個字母的意思如上触幼,就是交易時間硼瓣,交易次數(shù)和交易金額
Kmeans算法:
第一步:數(shù)據(jù)歸一化、離群點處理后置谦,隨機選擇k個聚類質(zhì)心
第二步:所有數(shù)據(jù)點關(guān)聯(lián)劃分到離自己最近的質(zhì)心堂鲤,形成k個簇;
第三步:重新計算每個簇的質(zhì)心媒峡;
重復第二步瘟栖、第三步,直到簇不發(fā)生變化或達到最大迭代次數(shù)谅阿。
7.特征工程怎么做的半哟,選擇了哪些特征作為預測變量?為什么用RFM模型來構(gòu)建特征變量签餐?(字節(jié)跳動)
參考答案
特征工程包括:特征構(gòu)建->特征提取->特征選擇寓涨。
選擇特征:用戶行為特征、用戶消費特征贱田、用戶畫像特征
==特征工程是特征構(gòu)建-特征提取-特征選擇(沒get到點誒)
選擇的特征是:用戶行為缅茉,用戶消費。用戶畫像(消費不能歸到行為里面嗎男摧?)
為什么RFM模型:因為我們沒有太多的用戶行為數(shù)據(jù)蔬墩,能用的數(shù)據(jù)比較有限。但是有一定的成交數(shù)據(jù)耗拓。只要有成交數(shù)據(jù)拇颅,就能進行RFM的分析。其次乔询,模型的分層可解釋性強樟插。其他很多算法模型、機器學習模型竿刁,往往通過聚類進行用戶的分層黄锤,對于業(yè)務(wù)來講,不是很好解釋食拜。但RFM模型分成的用戶類別鸵熟,是非常好理解的狂塘。
==說到底還是RFM模型需要的數(shù)據(jù)比較簡單揍鸟,只要有成交數(shù)據(jù)就可以。另外就是RFM模型做的分類解釋性比較高贮尖,用機器學習等去做或許效果更好,但是業(yè)務(wù)上不好解釋打月。
參考答案
RFM模型根據(jù)客戶活躍程度和交易金額的貢獻奏篙,進行客戶價值細分的 一種方法柴淘。它能夠識別優(yōu)質(zhì)客戶;可以制定個性化的溝通和營銷服務(wù)报破,為更多的營銷決策提供有力支持悠就;能夠衡量客戶價值和客戶利潤創(chuàng)收能力千绪。
R(Recency)——最近一次交易時間間隔充易。
F(Frequency)——客戶在最近一段時間內(nèi)交易次數(shù)。
M(Monetray)——客戶最近一段時間內(nèi)交易金額荸型。
9.xgb原理(猿輔導)
參考答案
xgboost就是一堆CART樹的集合盹靴,將每棵樹的預測值加在一起得到最后的預測值。xgboost利用了損失函數(shù)二階的導數(shù)信息瑞妇,并且在目標函數(shù)之外加入了正則項稿静,避免過擬合。
==介紹的多少有些隨意了辕狰,XGB算法是集成學習中串行式的一種改备,利用優(yōu)化殘差的思想去集成,利用了損失函數(shù)二階的導數(shù)信息蔓倍,并且加入了正則項
10.實習項目介紹悬钳,為什么用xgb(猿輔導)
參考答案
xgboosting在傳統(tǒng)boosting的基礎(chǔ)上,利用cpu的多線程偶翅,引入正則化項默勾,控制了模型的復雜度。并且xgb可并行處理聚谁,并能對缺失值處理母剥,還內(nèi)置交叉驗證。
==讓串聯(lián)的模型實現(xiàn)多線程計算形导,減少了運算時間(4.16
答案解析
xgboost的優(yōu)點
27.?分析的y环疼,也就是因變量是什么(ATL)
參考答案:
因變量是因為自變量的變化而產(chǎn)生的現(xiàn)象變化或結(jié)果,也叫函數(shù)值朵耕。
28.?假如在天貓上有兩款商品炫隶,如何分析它們的優(yōu)勢、劣勢以及它們之間的差異憔披,并根據(jù)結(jié)果給出相應(yīng)的建議等限,思考5分鐘再回答(三諾生物)
參考答案:
可以從價格爸吮、銷量、評價和商品介紹四個方面對比兩款商品的優(yōu)劣勢和差異望门⌒谓浚可以按照自己的偏好設(shè)置權(quán)重,將價格筹误、銷量桐早、評價和商品介紹量化打分后進行加權(quán),得到最后的得分幫助自己選擇厨剪。
==怎么感覺這題答得不太對呢
29.?講述一個在實習中遇到的異動指標分析的實例(字節(jié)跳動)
參考答案:
我先簡單介紹一下背景:是在xxx過程中我們發(fā)現(xiàn)xxx指標出現(xiàn)異常哄酝,于是我們需要找到問題原因。隨后我們從xx和xx維度進行拆解祷膳,發(fā)現(xiàn)xx維度出現(xiàn)了異常陶衅。在我們與產(chǎn)品/技術(shù)團隊溝通后發(fā)現(xiàn)是由于xx原因造成的xx指標異常。最后我們想到可以用xxx方法解決這個異常直晨,并推動運營/產(chǎn)品/技術(shù)對這一策略進行落地搀军。
答案解析:
項目背景+具體問題+分析過程+分析結(jié)論+策略落地
30.?情景是直播打賞,給主播刷禮物勇皇。平臺希望通過刺激不付費的用戶消費(提升付費率)罩句,來提升直播收入,所以現(xiàn)在上線了單價較低的打賞禮物敛摘。打個比方门烂,原來最低價格的禮物是10抖幣,現(xiàn)在新增的禮物只需要付2抖幣兄淫。但發(fā)現(xiàn)直播的收益并沒有明顯提升屯远,該如何分析?(字節(jié)跳動)
參考答案:
首先拖叙,我們需要對用戶進行分層氓润,可以分為上線較低打賞禮物前不付費用戶和付費用戶,再細分的話可以把付費用戶按照付費金額劃分區(qū)間薯鳍。統(tǒng)計出各用戶群的消費變動咖气。若未付費用戶轉(zhuǎn)變?yōu)楦顿M用戶,則說明策略有效挖滤。
==關(guān)鍵在于用戶分層崩溪,目標就是讓不消費的用戶去消費,那看下轉(zhuǎn)化率就可以了
答案解析:
考察能夠想到用戶分層斩松。
31.?平時分析中對接的人員(滴滴)
參考答案:
產(chǎn)品/運營人員:對接產(chǎn)品/運營的數(shù)據(jù)需求并搭建數(shù)據(jù)看板伶唯。
分析人員:進行專題分析和異常分析,并推動策略落地惧盹。
技術(shù)人員:數(shù)據(jù)平臺出現(xiàn)bug以及看板報錯情況乳幸,需和技術(shù)人員進行溝通瞪讼。
==所以良好的溝通能力還是要有的,產(chǎn)品運營是爸爸粹断,要聽他們指揮符欠,分析人員是兄弟,一起商討異常問題瓶埋,不過話說回來希柿,分析人員不就是我們自己嗎?然后技術(shù)就是兒子养筒,告訴它們哪哪有問題曾撤。(4.16
32.?夏天北京網(wǎng)約車呼叫量增加,分析原因(滴滴)
參考答案:
對北京路段網(wǎng)約車始發(fā)地進行劃分晕粪,例如分為xx商圈挤悉,xx機場等,查看是否存在哪些路段網(wǎng)約車車輛突增的趨勢兵多。隨后對該路段情況進行分析尖啡,是否存在氣候、工作等原因剩膘。針對這些原因,我們可以做出相應(yīng)的策略來提高我們?nèi)粘>W(wǎng)約車的數(shù)量盆顾。
==這種問題首先都得做做分層怠褐。看看是哪些地點呼叫了增加您宪,看看是不是有其他外部問題
==原因可太多了奈懒,這不得分分范圍嗎?(4.16
33.?現(xiàn)在的工作中涉及到分析的具體工作有哪些宪巨?(京東)
參考答案:
專題分析:對業(yè)務(wù)出現(xiàn)的異常情況進行專題分析磷杏,定位問題找出原因,并制訂解決策略捏卓,推進落地极祸;
臨時分析需求:對小數(shù)據(jù)需求進行分析(指標監(jiān)控),例如用戶點贊行為分析怠晴;
報表分析:制作實時更新的可視化報表遥金,實時定位異常情況。
==原來分析也有不同分類蒜田,業(yè)務(wù)異常分析就是專題分析稿械;小數(shù)據(jù)需求就是臨時分析;制作報表就是報表分析(4.16
答案解析:
分2-3各層面冲粤,并列舉實習中的工作實例美莫。
34.?除了指標的監(jiān)控之外页眯,會有分析相關(guān)的工作嗎?(京東)
參考答案:
專題分析:我獨立負責過xxx的專題分析厢呵,背景是我們發(fā)現(xiàn)xxx現(xiàn)象(可以是指標異常也可以是其他現(xiàn)象)餐茵,隨后我們通過xx和xx層面分析了xx指標,發(fā)現(xiàn)了xx現(xiàn)象述吸,于是我們想了xxx策略忿族,并與運營和技術(shù)溝通,推進策略落地蝌矛,策略落地后道批,我們觀測xx指標,發(fā)現(xiàn)xx指標的xx變動入撒,表明我們的策略是正向的隆豹。
答案解析:
可以說一下自己做的專題分析,從背景介紹+分析思路+策略推進+落地效果來介紹茅逮。
35.?舉一個具體的例子璃赡,在工作中分析了什么問題,對公司有哪些影響和風險献雅,你是怎么給出方案去改善去落地的碉考?(京東)
參考答案:
(項目背景)在xx實習的時候,我們?nèi)可暇€了一個短視頻流的功能挺身,但是全量上線后的數(shù)據(jù)表現(xiàn)沒有達到預期侯谁,所以我們做了關(guān)于這個短視頻流稿件的分析。
(分析過程)我們分別從近一周被消費的短視頻情況章钾、高粉博主發(fā)布的視頻消費情況以及消費情況好的視頻的詳情分析墙贱。
(分析結(jié)論)結(jié)果發(fā)現(xiàn)雖然我們有好的視頻但是好的視頻并沒有得到好的消費。
(策略落地)所以我們?nèi)ヅc運營團隊溝通分析什么是符合我們app特色的視頻贱傀,并與算法團隊溝通推薦策略惨撇。
(落地影響)在我們推進后一周,xx數(shù)據(jù)和xx數(shù)據(jù)得到了顯著的提高府寒。
36.?你現(xiàn)在獨立做分析報告嗎魁衙?多久做一次?(京東)
參考答案:
之前有嘗試過做xx項目的分析報告椰棘,我是從xxx方面進行分析纺棺,后和我的mentor討論發(fā)現(xiàn)還可以從xxx方面進行分析,隨后我們得出了xxx結(jié)論邪狞,想出來xx策略祷蝌。大約一個月兩次的樣子,沒有固定的時間帆卓,是業(yè)務(wù)出現(xiàn)問題或者我們在日常分析中發(fā)現(xiàn)問題后才回去做分析報告巨朦。
答案解析:
不止是回答有分析報告米丘,最好介紹之前準備的分析項目報告,引導面試官接下來的問題糊啡。
37.?假設(shè)給一個數(shù)據(jù)集拄查,我會選擇的分析步驟是什么樣的?(快手)
參考答案:
數(shù)據(jù)清洗(刪除重復項棚蓄、填充缺失值和刪除異常值等)--思考需要分析的問題堕扶,得到分析思路--指標整合--可視化
==首先是對數(shù)據(jù)進行清理,然后再根據(jù)問題來確定指標梭依,再可視化
38.?就快手而言稍算,要如何分析在沒有營銷手段拉動的情況下,什么樣的作者/作品類型/作品內(nèi)容自然增長是具有快速增長增量的(快手)
參考答案:
首先役拴,制訂指標體系(七天內(nèi)漲粉量糊探、播轉(zhuǎn)粉率、點贊率等)識別出快速增長的作者/作品河闰。將這些作者的明細分為消費和供給兩方面進行分析科平。消費包括這些作者的稿件的點贊情況、點贊率情況等指標姜性;供給包括投稿頻次瞪慧,稿件屬于哪一類型等。通過這些數(shù)據(jù)來看是否具有一定的共性規(guī)律性污抬。
==想要找到這類人汞贸,先指定好區(qū)分指標,哪些指標能代表這群人印机。(4.16
39.?所以你擅長的內(nèi)容實際上是在現(xiàn)成數(shù)據(jù)集上做挖掘分析對嗎?(快手)
參考答案:
不是门驾,我熟練掌握python對數(shù)據(jù)集清洗射赛,以及sql從數(shù)據(jù)庫中取出數(shù)據(jù)。對于其他網(wǎng)絡(luò)數(shù)據(jù)奶是,我也會使用python爬蟲從網(wǎng)站上爬取數(shù)據(jù)楣责。
==我會自己用sql從數(shù)據(jù)庫中提取,也會爬蟲
40.?實習中如何分析用戶流失路徑(字節(jié)跳動)
參考答案:
做埋點聂沙。用戶的流失率的分析需要統(tǒng)計次日留存秆麸,三日留存,七日留存和一月留存及汉,我們的流程是:
1沮趣、畫出用戶地圖,每一步埋點坷随,最后通過對數(shù)據(jù)的分析判斷每一個步驟上的流失率房铭,
2驻龟、優(yōu)化具體的操作步驟,看題主描述的引導頁應(yīng)該是注冊——選擇喜歡音樂類型——選擇喜愛歌手——APP首頁缸匪,至于進入后的其他環(huán)節(jié)不太清楚翁狐,要對產(chǎn)品核心功埋點,分析每一個核心功能每一個步驟凌蔬,分析用戶在哪一步流失露懒,這些數(shù)據(jù)的收集和分析有助于優(yōu)化該功能,提高用戶留存砂心。
41.?工作中做過什么專題分析(字節(jié)跳動)
參考答案:
介紹專題分析的背景(為什么要做這個專題)-->分析思路(從什么方面進行分析懈词,分析了哪些指標)-->分析結(jié)論(發(fā)現(xiàn)了什么現(xiàn)象,找出了什么原因)-->策略落地(針對這些現(xiàn)象實施什么策略计贰,與哪些部門進行溝通)-->落地效果
42.?我們假設(shè)钦睡,飛書現(xiàn)在視頻會議功能用戶量驟減,你會怎么分析(字節(jié)跳動)
參考答案:
首先躁倒,驗證數(shù)據(jù)的準確性荞怒,不是由于底層數(shù)據(jù)庫或數(shù)據(jù)口徑出現(xiàn)問題而出現(xiàn)的驟降。
隨后秧秉,將用戶進行分層褐桌,可以從地區(qū)、時段象迎、行業(yè)等維度進行劃分荧嵌,看哪部分的用戶顯著下降。
最后從內(nèi)部和外部進行原因分析砾淌,內(nèi)部從產(chǎn)品啦撮、運營、技術(shù)層面找原因汪厨,外部從競品找原因赃春。
43.?那要是你作為一個內(nèi)部人員的話,怎么分析這些數(shù)據(jù)呢(字節(jié)跳動)
參考答案:
首先,我會先從產(chǎn)品現(xiàn)狀發(fā)現(xiàn)問題劫乱,針對問題進行分析织中。
隨后,我會對問題進行拆解衷戈,再構(gòu)建數(shù)據(jù)指標體系狭吼。
最后我會對用戶進行分層,對各個層級的用戶統(tǒng)計數(shù)據(jù)指標體系殖妇,看各層級用戶是否有明顯區(qū)別刁笙,能夠解釋問題。
44.?說一個你在實習中做異動指標分析的例子(滴滴)
參考答案:
在某視頻直播平臺實習時,我做過優(yōu)質(zhì)傳輸率異常值分析采盒。這里的優(yōu)質(zhì)傳輸率指的是a和b在視頻通話過程中的丟包情況旧乞,優(yōu)質(zhì)傳輸率一般在95%以上,但是當時突然下降到了85%磅氨。對此尺栖,我們將數(shù)據(jù)按照省份、傳輸機房烦租、運營商等維度進行拆解延赌,看各個維度的優(yōu)質(zhì)傳輸率情況。我們發(fā)現(xiàn)有兩個省份的優(yōu)質(zhì)傳輸率很低叉橱,并且后來發(fā)現(xiàn)是機房原因挫以,我們把該省份的傳輸端口手動接入附近省份,次日優(yōu)質(zhì)傳輸率恢復窃祝。
45.?如果最近DUA有較大抖動掐松,你怎么去找核心原因?可以添加什么因素在這個分析模型中粪小?(字節(jié)跳動)
參考答案:
首先確定是否是底層表或統(tǒng)計口徑的問題造成的較大抖動大磺。隨后對用戶進行分層,分層的維度可以有新老用戶探膊、各年齡段用戶等杠愧,找到是哪部分用戶的DAU下滑明顯。隨后從產(chǎn)品內(nèi)部和外部進行分析逞壁,內(nèi)部可以從產(chǎn)品流济、運營和技術(shù)上找原因,外部可以從政治經(jīng)濟和競品分析找原因腌闯。
==某些指標出現(xiàn)了較大的波動绳瘟,得先看看是不是底層數(shù)據(jù)庫或者是數(shù)據(jù)口徑出現(xiàn)按的問題。然后對用戶分層來分析姿骏。
46.?你剛才提到了版本你會用什么方法分析稽荧。(新版本上線分析)(字節(jié)跳動)
參考答案:
我主要從以下幾個方面寫的分析報告:
1.基于什么樣的背景(在什么樣背景下版本更新了)。
2.為了達成怎樣的目的(版本更新針對什么問題工腋,針對哪些人群)。
3.做了怎樣的功能(新功能/改動功能有哪些)畅卓。
4.監(jiān)控了哪些指標項擅腰。
5.各指標得到的結(jié)論。
6.總結(jié)這次版本更新的表現(xiàn)翁潘。