今日頭條數(shù)據(jù)分析面試題總結(jié)

SQL題：

表 Cost: date | cname(customer's name) | cost
找出每天花費(fèi)最大的客戶

SELECT date,cname
FROM Cost a INNER JOIN (SELECT date,max(cost) as maxcost FROM Cost GROUP BY date) b
ON a.cost=b.maxcost and a.date=b.date

一個(gè)日志表，有兩列 date,cid(customer id),添加一列is_new表示當(dāng)天這個(gè)用戶是否是新用戶蓖扑，基本邏輯是當(dāng)天用戶id不在之前日期的id集合中戒祠，那么就是新用戶

ALTER TABLE Log
ADD COLUMN is_new Boolean

UPDATE Log
SET is_new = 1 
WHERE date,cid in (SELECT min(date),cid from Log GROUP BY cid)

算法問(wèn)題：

SVM算法和核函數(shù)：
SVM算法是一個(gè)二分類算法，從數(shù)據(jù)集合中找到一個(gè)超平面叔收，使得兩類數(shù)據(jù)分開(kāi)选酗，這個(gè)超平面距離兩類數(shù)據(jù)之間的間隔最大哑子。
優(yōu)點(diǎn)：
1）可以解決小樣本下機(jī)器學(xué)習(xí)的問(wèn)題
2）提高泛化性能
3）可以解決文本分類跪妥、字識(shí)別圖像等方面仍受歡迎
4）避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問(wèn)題
缺點(diǎn)：
1）缺失數(shù)據(jù)敏感
2）內(nèi)存消耗大鞋喇，難以解釋
SVM常用和函數(shù)：
線性核函數(shù)
多項(xiàng)式核函數(shù)
高斯（RBF）核函數(shù)
sigmoid核函數(shù)

PCA的原理和內(nèi)容
是最常用的線性降維方法，它的目標(biāo)是通過(guò)某種投影將高的數(shù)據(jù)映射到低維空間（一般為協(xié)方差矩陣的特征空間）中表示眉撵，并期望所在投影的維度上數(shù)據(jù)方差最大侦香，以此使用較少數(shù)據(jù)的維度落塑，同時(shí)較多保留原數(shù)據(jù)的特性。

分析問(wèn)題：

如果次日用戶留存率下降了 5%該怎么分析
留存率=新增用戶中登錄用戶數(shù)/新增用戶數(shù) * 100%（一般統(tǒng)計(jì)周期為天）
次日留存率：（當(dāng)天新增的用戶中鄙皇，在注冊(cè)的第2天還登錄的用戶數(shù)）/第一天新增總用戶數(shù)芜赌；
先判斷這個(gè)下降是否合理仰挣，然后從各個(gè)方向頭腦風(fēng)暴
某公司做了很多拉新伴逸、推廣的活動(dòng)，用戶是帶來(lái)了很多膘壶，但是留下來(lái)或經(jīng)常返回來(lái)的客戶不一定增長(zhǎng)错蝴，他們有可能是在減少，只不過(guò)是拉新過(guò)來(lái)的人太多了而掩蓋了流失率居高不下的問(wèn)題颓芭，實(shí)際上客戶的留存是在逐漸降低的顷锰。
用戶進(jìn)入時(shí)來(lái)源于不同的渠道，通過(guò)不同的營(yíng)銷手段拉入游戲亡问，這樣我們交叉分析官紫，通過(guò)用戶的后期留存情況就能從一個(gè)層面把握渠道質(zhì)量
（1）首先采用“兩層模型”分析：對(duì)用戶進(jìn)行細(xì)分，包括新老州藕、渠道束世、活動(dòng)、畫(huà)像等多個(gè)維度床玻，然后分別計(jì)算每個(gè)維度下不同用戶的次日留存率毁涉。通過(guò)這種方法定位到導(dǎo)致留存率下降的用戶群體是誰(shuí)
按照獲取客戶渠道進(jìn)行分析
按照獲取客戶時(shí)間進(jìn)行分析
按照用戶行為進(jìn)行分析
不同群組對(duì)產(chǎn)品不同模塊使用狀況的分析
（2）分析留下來(lái)用戶的核心需求和流失用戶的流失原因
內(nèi)部因素
分為獲客（渠道質(zhì)量低、活動(dòng)獲取非目標(biāo)用戶）锈死、滿足需求（新功能改動(dòng)引發(fā)某類用戶不滿）贫堰、提活手段（簽到等提活手段沒(méi)打成目標(biāo)、產(chǎn)品自然使用周期低導(dǎo)致上次獲得的大量用戶短期內(nèi)不需要再使用等）待牵；
外部因素采用PEST分析其屏，政治（政策影響）、經(jīng)濟(jì)（短期內(nèi)主要是競(jìng)爭(zhēng)環(huán)境缨该，如對(duì)競(jìng)爭(zhēng)對(duì)手的活動(dòng)）偎行、社會(huì)（輿論壓力、用戶生活方式變化压彭、消費(fèi)心理變化睦优、價(jià)值觀變化等偏好變化）、技術(shù)（創(chuàng)新解決方案的出現(xiàn)壮不、分銷渠道變化等）

玉米如何提高收益汗盘，價(jià)格提高多少才能獲取最大收益
收益 = 單價(jià) * 銷售量，那么我們的策略是提高單位溢價(jià)或者提高銷售規(guī)模询一。
提高單位溢價(jià)的方法：品牌打造獲得長(zhǎng)期溢價(jià)隐孽，但缺陷是需要大量前期營(yíng)銷投入癌椿；加工商品占據(jù)價(jià)值鏈更多環(huán)節(jié)，如熟玉米菱阵、玉米汁踢俄、玉米蛋白粉；重定位商品晴及，如禮品化等都办；價(jià)格歧視，根據(jù)價(jià)格敏感度對(duì)不同用戶采用不同定價(jià)虑稼。
銷售量=流量 * 轉(zhuǎn)化率琳钉，上述提高單位溢價(jià)的方法可能對(duì)流量產(chǎn)生影響，也可能對(duì)轉(zhuǎn)化率產(chǎn)生影響蛛倦。
那么收益 = 單價(jià)流量轉(zhuǎn)化率歌懒，短期內(nèi)能規(guī)模化采用的應(yīng)該是進(jìn)行價(jià)格其實(shí)溯壶，如不同時(shí)間及皂、不同商圈的玉米價(jià)格不同，采取高定價(jià)且改，然后對(duì)價(jià)格敏感的用戶提供優(yōu)惠券等验烧。

頭條放多少?gòu)V告可以獲得最大收益
收益 = 出價(jià)流量點(diǎn)擊率*有效轉(zhuǎn)化率，放廣告的數(shù)量會(huì)在提高流量钾虐，但會(huì)降低匹配程度噪窘，因此降低點(diǎn)擊率。最大收益是找到這個(gè)乘積的最大值效扫，是一個(gè)有約束條件的最優(yōu)化問(wèn)題倔监。
同時(shí)參考價(jià)格歧視方案，可以對(duì)不同的用戶投放不同數(shù)量的廣告菌仁。

收益 = 廣告數(shù)*單條廣告收益
廣告數(shù)量 : 廣告數(shù)量影響著用戶數(shù)量減少?gòu)V告對(duì)用戶的影響：軟廣浩习，精準(zhǔn)廣告等
單條廣告收益：廣告轉(zhuǎn)化率廣告價(jià)格:提升用戶數(shù)聽(tīng)聲,精準(zhǔn)營(yíng)銷

用戶的點(diǎn)擊率下降2個(gè)百分點(diǎn)，該如何分析處理济丘？
先看是什么的點(diǎn)擊率
判斷這個(gè)下降是否合理
然后可以先用戶進(jìn)行拆分（新用戶和老用戶谱秽，不用類型的用戶），但不同類型用戶的點(diǎn)擊率
然后看不同時(shí)間段的點(diǎn)擊率

從產(chǎn)品層摹迷、運(yùn)營(yíng)層疟赊、推薦算法層和用戶體驗(yàn)層進(jìn)行分析，得出結(jié)論峡碉。

APP激活量的來(lái)源渠道很多近哟，怎樣對(duì)來(lái)源渠道變化大的進(jìn)行預(yù)警
1）如果渠道使用時(shí)間較長(zhǎng)，認(rèn)為渠道的app激活量滿足一個(gè)分布鲫寄，比較可能是正態(tài)分布吉执。求平均值和標(biāo)準(zhǔn)差疯淫，對(duì)于今日數(shù)值與均值差大于3/2/1個(gè)標(biāo)準(zhǔn)差的渠道進(jìn)行預(yù)警
2）對(duì)于短期的新渠道，直接與均值進(jìn)行對(duì)比戳玫。

用戶剛進(jìn)來(lái)APP的時(shí)候會(huì)選擇屬性熙掺，怎樣在保證有完整用戶信息的同時(shí)讓用戶流失減少
采用技術(shù)接受模型（TAM）來(lái)分析，影響用戶接受選擇屬性這件事的主要因素有：
1）感知有用性：
a. 文案告知用戶選擇屬性能給用戶帶來(lái)的好處
2）感知易用性：
a. 關(guān)聯(lián)用戶第三方賬號(hào)（如微博）咕宿，可以冷啟動(dòng)階段匹配用戶更有可能選擇的屬性币绩，推薦用戶選擇
b. 交互性做好
3）使用者態(tài)度：用戶對(duì)填寫(xiě)信息的態(tài)度
a. 這里需要允許用戶跳過(guò)，后續(xù)再提醒用戶填寫(xiě)
b. 告知用戶填寫(xiě)的信息會(huì)受到很好的保護(hù)
4）行為意圖：用戶使用APP的目的性荠列，難以控制
5）外部變量：如操作時(shí)間类浪、操作環(huán)境等载城，這里難以控制

男生點(diǎn)擊率增加肌似，女生點(diǎn)擊率增加，總體為何減少
考慮用戶群體比例的變化
因?yàn)槟信狞c(diǎn)擊率可能有較大差異诉瓦，同時(shí)此時(shí)低點(diǎn)擊率群體的占比增大川队。
如原來(lái)男性20人，點(diǎn)擊1人睬澡；女性100人固额，點(diǎn)擊99人，總點(diǎn)擊率100/120煞聪。
現(xiàn)在男性100人斗躏，點(diǎn)擊6人；女性20人昔脯，點(diǎn)擊20人啄糙，總點(diǎn)擊率26/120。
即那個(gè)段子“A系中智商最低的人去讀B云稚，同時(shí)提高了A系和B系的平均智商隧饼。”

如何識(shí)別作弊用戶（爬蟲(chóng)程序静陈，或者渠道偽造的假用戶）
分類問(wèn)題可以用機(jī)器學(xué)習(xí)的方法去解決燕雁，下面是我目前想到的特征：
1）渠道特征：渠道、渠道次日留存率鲸拥、渠道流量以及各種比率特征
2）環(huán)境特征：設(shè)備（一般偽造假用戶的工作坊以低端機(jī)為主）拐格、系統(tǒng)（刷量工作坊一般系統(tǒng)更新較慢）、wifi使用情況刑赶、使用時(shí)間捏浊、來(lái)源地區(qū)
3）用戶行為特征：訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)頁(yè)面角撞、使用間隔呛伴、次日留存勃痴、活躍時(shí)間、頁(yè)面跳轉(zhuǎn)行為（假用戶的行為要么過(guò)于一致热康，要么過(guò)于隨機(jī)）沛申、頁(yè)面使用行為（正常用戶對(duì)圖片的點(diǎn)擊也是有分布的，假用戶的行為容易過(guò)于隨機(jī)）
4）異常特征：設(shè)備號(hào)異常（頻繁重置idfa）姐军、ip異常（異地訪問(wèn)）铁材、行為異常（突然大量點(diǎn)擊廣告、點(diǎn)贊）奕锌、數(shù)據(jù)包不完整等

定價(jià)策略

數(shù)據(jù)分析通常包括幾個(gè)階段：
提出/發(fā)現(xiàn)問(wèn)題——獲取并清洗數(shù)據(jù)——建闹酰——調(diào)整優(yōu)化——輸出結(jié)論。

數(shù)學(xué)問(wèn)題：

假設(shè)檢驗(yàn)：根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法惊暴。
----對(duì)總體做假設(shè)
----由樣本做檢驗(yàn)
----假設(shè)檢驗(yàn)的要素：
原假設(shè)（Null Hypothesis）
備擇假設(shè)（Alternative Hypothesis）：即與原假設(shè)相悖的陳述
檢驗(yàn)統(tǒng)計(jì)量：用采樣數(shù)據(jù)基于原假設(shè)計(jì)算出的統(tǒng)計(jì)量饼丘，用來(lái)檢驗(yàn)原假設(shè)和備擇假設(shè)
拒絕域：在該區(qū)間，拒絕原假設(shè)辽话，而趨向于備擇假設(shè)
----錯(cuò)誤類型：
類型I: 在給定原假設(shè)是正確的情況下拒絕原假設(shè)的概率(False positive)
α = P(reject H0 | H0 true) 拒真
類型II: 在給定備擇假設(shè)是正確的情況下接受原假設(shè)的概率(False negative)
β = P(accept H0 | H1 true) 取偽

F檢驗(yàn)是干嘛的
1）F檢驗(yàn)是檢驗(yàn)兩個(gè)正態(tài)分布的樣本的方差是否存在顯著差異
2）也可以用于對(duì)多組樣本之間比較
3）計(jì)量中肄鸽，F(xiàn)檢驗(yàn)原假設(shè)所有自變量對(duì)因變量都沒(méi)有影響，排除原假設(shè)說(shuō)明至少有一個(gè)自變量對(duì)因變量有影響

P值
P值（P value）就是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率油啤。
P值典徘，碰巧的概率，對(duì)無(wú)效假設(shè)的統(tǒng)計(jì)意義
P＞0.05 碰巧出現(xiàn)的可能性大于5% 不能否定無(wú)效假設(shè) 兩組差別無(wú)顯著意義
P＜0.05 碰巧出現(xiàn)的可能性小于5% 可以否定無(wú)效假設(shè) 兩組差別有顯著意義
P＜0.01 碰巧出現(xiàn)的可能性小于1% 可以否定無(wú)效假設(shè) 兩者差別有非常顯著意義

大數(shù)定律
大數(shù)定律是指在隨機(jī)試驗(yàn)中益咬，每次出現(xiàn)的結(jié)果不同逮诲，但是大量重復(fù)試驗(yàn)出現(xiàn)的結(jié)果的平均值卻幾乎總是接近于某個(gè)確定的值。原因是幽告，在大量的觀察試驗(yàn)中梅鹦，個(gè)別的、偶然的因素影響而產(chǎn)生的差異將會(huì)相互抵消评腺，從而使現(xiàn)象的必然規(guī)律性顯示出來(lái)帘瞭。

梯度下降
梯度下降法是一個(gè)最優(yōu)化算法，通常也稱為最速下降法蒿讥。最速下降法是求解無(wú)約束優(yōu)化問(wèn)題最簡(jiǎn)單和最古老的方法之一蝶念，雖然現(xiàn)在已經(jīng)不具有實(shí)用性，但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的芋绸。最速下降法是用負(fù)梯度方向?yàn)樗阉鞣较虻拿窖常钏傧陆捣ㄔ浇咏繕?biāo)值，步長(zhǎng)越小摔敛，前進(jìn)越慢廷蓉。

缺點(diǎn)：靠近極小值時(shí)收斂速度減慢。直線搜索時(shí)可能會(huì)產(chǎn)生一些問(wèn)題马昙√胰可能會(huì)“之字形”地下降刹悴。

其他

存儲(chǔ)和列存儲(chǔ)的區(qū)別
1）行存儲(chǔ)：傳統(tǒng)數(shù)據(jù)庫(kù)的存儲(chǔ)方式，同一張表內(nèi)的數(shù)據(jù)放在一起攒暇，插入更新很快土匀。缺點(diǎn)是每次查詢即使只涉及幾列，也要把所有數(shù)據(jù)讀取
2）列存儲(chǔ)：OLAP等情況下形用，將數(shù)據(jù)按照列存儲(chǔ)會(huì)更高效就轧，每一列都可以成為索引，投影很高效田度。缺點(diǎn)是查詢是選擇完成時(shí)妒御，需要對(duì)選擇的列進(jìn)行重新組裝。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末镇饺，一起剝皮案震驚了整個(gè)濱河市乎莉，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌兰怠，老刑警劉巖梦鉴，帶你破解...
沈念sama閱讀 217,277評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異揭保，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)魄宏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)秸侣，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人宠互，你說(shuō)我怎么就攤上這事味榛。” “怎么了予跌？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵搏色，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我券册，道長(zhǎng)频轿，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任烁焙，我火速辦了婚禮航邢，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘骄蝇。我一直安慰自己膳殷，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布九火。她就那樣靜靜地躺著赚窃，像睡著了一般册招。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上勒极，一...
開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1贊 301
城市分裂傳說(shuō)
那天跨细，我揣著相機(jī)與錄音，去河邊找鬼河质。笑死冀惭，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的掀鹅。我是一名探鬼主播散休，決...
沈念sama閱讀 40,135評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼乐尊！你這毒婦竟也來(lái)了戚丸？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤扔嵌，失蹤者是張志新（化名）和其女友劉穎限府，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體痢缎，經(jīng)...
沈念sama閱讀 45,429評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡胁勺，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了独旷。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片署穗。...
茶點(diǎn)故事閱讀 39,785評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖嵌洼，靈堂內(nèi)的尸體忽然破棺而出案疲，到底是詐尸還是另有隱情，我是刑警寧澤麻养，帶...
沈念sama閱讀 35,492評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布褐啡，位于F島的核電站，受9級(jí)特大地震影響鳖昌，放射性物質(zhì)發(fā)生泄漏备畦。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一遗遵、第九天我趴在偏房一處隱蔽的房頂上張望萍恕。院中可真熱鬧，春花似錦车要、人聲如沸允粤。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)类垫。三九已至司光，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間悉患，已是汗流浹背残家。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留售躁，地道東北人坞淮。一個(gè)月前我還...
沈念sama閱讀 47,891評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像陪捷，于是被迫代替她去往敵國(guó)和親回窘。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評(píng)論 2贊 354

今日頭條 數(shù)據(jù)分析 面試題總結(jié)

推薦閱讀更多精彩內(nèi)容

今日頭條數(shù)據(jù)分析面試題總結(jié)