今日頭條 數(shù)據(jù)分析 面試題總結(jié)

SQL題:


表 Cost: date | cname(customer's name) | cost
找出每天花費(fèi)最大的客戶

SELECT date,cname
FROM Cost a INNER JOIN (SELECT date,max(cost) as maxcost FROM Cost GROUP BY date) b
ON a.cost=b.maxcost and a.date=b.date

一個(gè)日志表,有兩列 date,cid(customer id),添加一列is_new表示當(dāng)天這個(gè)用戶是否是新用戶蓖扑,基本邏輯是當(dāng)天用戶id不在之前日期的id集合中戒祠,那么就是新用戶

ALTER TABLE Log
ADD COLUMN is_new Boolean

UPDATE Log
SET is_new = 1 
WHERE date,cid in (SELECT min(date),cid from Log GROUP BY cid)

算法問(wèn)題:


SVM算法和核函數(shù):
SVM算法是一個(gè)二分類算法,從數(shù)據(jù)集合中找到一個(gè)超平面叔收,使得兩類數(shù)據(jù)分開(kāi)选酗,這個(gè)超平面距離兩類數(shù)據(jù)之間的間隔最大哑子。
優(yōu)點(diǎn):
1)可以解決小樣本下機(jī)器學(xué)習(xí)的問(wèn)題
2)提高泛化性能
3)可以解決文本分類跪妥、字識(shí)別圖像等方面仍受歡迎
4)避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問(wèn)題
缺點(diǎn):
1)缺失數(shù)據(jù)敏感
2)內(nèi)存消耗大鞋喇,難以解釋
SVM常用和函數(shù):
線性核函數(shù)
多項(xiàng)式核函數(shù)
高斯(RBF)核函數(shù)
sigmoid核函數(shù)


PCA的原理和內(nèi)容
是最常用的線性降維方法,它的目標(biāo)是通過(guò)某種投影將高的數(shù)據(jù)映射到低維空間(一般為協(xié)方差矩陣的特征空間)中表示眉撵,并期望所在投影的維度上數(shù)據(jù)方差最大侦香,以此使用較少數(shù)據(jù)的維度 落塑,同時(shí)較多保留原數(shù)據(jù)的特性。


分析問(wèn)題:


如果次日用戶留存率下降了 5%該怎么分析
留存率=新增用戶中登錄用戶數(shù)/新增用戶數(shù) * 100%(一般統(tǒng)計(jì)周期為天)
次日留存率:(當(dāng)天新增的用戶中鄙皇,在注冊(cè)的第2天還登錄的用戶數(shù))/第一天新增總用戶數(shù)芜赌;
先判斷這個(gè)下降是否合理仰挣,然后從各個(gè)方向頭腦風(fēng)暴
某公司做了很多拉新伴逸、推廣的活動(dòng),用戶是帶來(lái)了很多膘壶,但是留下來(lái)或經(jīng)常返回來(lái)的客戶不一定增長(zhǎng)错蝴,他們有可能是在減少,只不過(guò)是拉新過(guò)來(lái)的人太多了而掩蓋了流失率居高不下的問(wèn)題颓芭,實(shí)際上客戶的留存是在逐漸降低的顷锰。
用戶進(jìn)入時(shí)來(lái)源于不同的渠道,通過(guò)不同的營(yíng)銷手段拉入游戲亡问,這樣我們交叉分析官紫,通過(guò)用戶的后期留存情況就能從一個(gè)層面把握渠道質(zhì)量
(1)首先采用“兩層模型”分析:對(duì)用戶進(jìn)行細(xì)分,包括新老州藕、渠道束世、活動(dòng)、畫(huà)像等多個(gè)維度床玻,然后分別計(jì)算每個(gè)維度下不同用戶的次日留存率毁涉。通過(guò)這種方法定位到導(dǎo)致留存率下降的用戶群體是誰(shuí)
按照獲取客戶渠道進(jìn)行分析
按照獲取客戶時(shí)間進(jìn)行分析
按照用戶行為進(jìn)行分析
不同群組對(duì)產(chǎn)品不同模塊使用狀況的分析
(2)分析留下來(lái)用戶的核心需求和流失用戶的流失原因
內(nèi)部因素
分為獲客(渠道質(zhì)量低、活動(dòng)獲取非目標(biāo)用戶)锈死、滿足需求(新功能改動(dòng)引發(fā)某類用戶不滿)贫堰、提活手段(簽到等提活手段沒(méi)打成目標(biāo)、產(chǎn)品自然使用周期低導(dǎo)致上次獲得的大量用戶短期內(nèi)不需要再使用等)待牵;
外部因素采用PEST分析其屏,政治(政策影響)、經(jīng)濟(jì)(短期內(nèi)主要是競(jìng)爭(zhēng)環(huán)境缨该,如對(duì)競(jìng)爭(zhēng)對(duì)手的活動(dòng))偎行、社會(huì)(輿論壓力、用戶生活方式變化压彭、消費(fèi)心理變化睦优、價(jià)值觀變化等偏好變化)、技術(shù)(創(chuàng)新解決方案的出現(xiàn)壮不、分銷渠道變化等)


玉米如何提高收益汗盘,價(jià)格提高多少才能獲取最大收益
收益 = 單價(jià) * 銷售量,那么我們的策略是提高單位溢價(jià)或者提高銷售規(guī)模询一。
提高單位溢價(jià)的方法:品牌打造獲得長(zhǎng)期溢價(jià)隐孽,但缺陷是需要大量前期營(yíng)銷投入癌椿;加工商品占據(jù)價(jià)值鏈更多環(huán)節(jié),如熟玉米菱阵、玉米汁踢俄、玉米蛋白粉;重定位商品晴及,如禮品化等都办;價(jià)格歧視,根據(jù)價(jià)格敏感度對(duì)不同用戶采用不同定價(jià)虑稼。
銷售量=流量 * 轉(zhuǎn)化率琳钉,上述提高單位溢價(jià)的方法可能對(duì)流量產(chǎn)生影響,也可能對(duì)轉(zhuǎn)化率產(chǎn)生影響蛛倦。
那么 收益 = 單價(jià)流量轉(zhuǎn)化率歌懒,短期內(nèi)能規(guī)模化采用的應(yīng)該是進(jìn)行價(jià)格其實(shí)溯壶,如不同時(shí)間及皂、不同商圈的玉米價(jià)格不同,采取高定價(jià)且改,然后對(duì)價(jià)格敏感的用戶提供優(yōu)惠券等验烧。


頭條放多少?gòu)V告可以獲得最大收益
收益 = 出價(jià)流量點(diǎn)擊率*有效轉(zhuǎn)化率,放廣告的數(shù)量會(huì)在提高流量钾虐,但會(huì)降低匹配程度噪窘,因此降低點(diǎn)擊率。最大收益是找到這個(gè)乘積的最大值效扫,是一個(gè)有約束條件的最優(yōu)化問(wèn)題倔监。
同時(shí)參考價(jià)格歧視方案,可以對(duì)不同的用戶投放不同數(shù)量的廣告菌仁。

收益 = 廣告數(shù)*單條廣告收益
廣告數(shù)量 : 廣告數(shù)量影響著用戶數(shù)量 減少?gòu)V告對(duì)用戶的影響:軟廣浩习,精準(zhǔn)廣告等
單條廣告收益:廣告轉(zhuǎn)化率廣告價(jià)格:提升用戶數(shù)聽(tīng)聲,精準(zhǔn)營(yíng)銷


用戶的點(diǎn)擊率下降2個(gè)百分點(diǎn),該如何分析處理济丘?
先看是什么的點(diǎn)擊率
判斷這個(gè)下降是否合理
然后可以先用戶進(jìn)行拆分(新用戶和老用戶谱秽,不用類型的用戶),但不同類型用戶的點(diǎn)擊率
然后看不同時(shí)間段的點(diǎn)擊率

從產(chǎn)品層摹迷、運(yùn)營(yíng)層疟赊、推薦算法層和用戶體驗(yàn)層進(jìn)行分析,得出結(jié)論峡碉。


APP激活量的來(lái)源渠道很多近哟,怎樣對(duì)來(lái)源渠道變化大的進(jìn)行預(yù)警
1)如果渠道使用時(shí)間較長(zhǎng),認(rèn)為渠道的app激活量滿足一個(gè)分布鲫寄,比較可能是正態(tài)分布吉执。求平均值和標(biāo)準(zhǔn)差疯淫,對(duì)于今日數(shù)值與均值差大于3/2/1個(gè)標(biāo)準(zhǔn)差的渠道進(jìn)行預(yù)警
2)對(duì)于短期的新渠道,直接與均值進(jìn)行對(duì)比戳玫。


用戶剛進(jìn)來(lái)APP的時(shí)候會(huì)選擇屬性熙掺,怎樣在保證有完整用戶信息的同時(shí)讓用戶流失減少
采用技術(shù)接受模型(TAM)來(lái)分析,影響用戶接受選擇屬性這件事的主要因素有:
1)感知有用性:
a. 文案告知用戶選擇屬性能給用戶帶來(lái)的好處
2)感知易用性:
a. 關(guān)聯(lián)用戶第三方賬號(hào)(如微博)咕宿,可以冷啟動(dòng)階段匹配用戶更有可能選擇的屬性币绩,推薦用戶選擇
b. 交互性做好
3)使用者態(tài)度:用戶對(duì)填寫(xiě)信息的態(tài)度
a. 這里需要允許用戶跳過(guò),后續(xù)再提醒用戶填寫(xiě)
b. 告知用戶填寫(xiě)的信息會(huì)受到很好的保護(hù)
4)行為意圖:用戶使用APP的目的性荠列,難以控制
5)外部變量:如操作時(shí)間类浪、操作環(huán)境等载城,這里難以控制


男生點(diǎn)擊率增加肌似,女生點(diǎn)擊率增加,總體為何減少
考慮用戶群體比例的變化
因?yàn)槟信狞c(diǎn)擊率可能有較大差異诉瓦,同時(shí)此時(shí)低點(diǎn)擊率群體的占比增大川队。
如原來(lái)男性20人,點(diǎn)擊1人睬澡;女性100人固额,點(diǎn)擊99人,總點(diǎn)擊率100/120煞聪。
現(xiàn)在男性100人斗躏,點(diǎn)擊6人;女性20人昔脯,點(diǎn)擊20人啄糙,總點(diǎn)擊率26/120。
即那個(gè)段子“A系中智商最低的人去讀B云稚,同時(shí)提高了A系和B系的平均智商隧饼。”


如何識(shí)別作弊用戶(爬蟲(chóng)程序静陈, 或者渠道偽造的假用戶)
分類問(wèn)題可以用機(jī)器學(xué)習(xí)的方法去解決燕雁,下面是我目前想到的特征:
1)渠道特征:渠道、渠道次日留存率鲸拥、渠道流量以及各種比率特征
2)環(huán)境特征:設(shè)備(一般偽造假用戶的工作坊以低端機(jī)為主)拐格、系統(tǒng)(刷量工作坊一般系統(tǒng)更新較慢)、wifi使用情況刑赶、使用時(shí)間捏浊、來(lái)源地區(qū)
3)用戶行為特征:訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)頁(yè)面角撞、使用間隔呛伴、次日留存勃痴、活躍時(shí)間、頁(yè)面跳轉(zhuǎn)行為(假用戶的行為要么過(guò)于一致热康,要么過(guò)于隨機(jī))沛申、頁(yè)面使用行為(正常用戶對(duì)圖片的點(diǎn)擊也是有分布的,假用戶的行為容易過(guò)于隨機(jī))
4)異常特征:設(shè)備號(hào)異常(頻繁重置idfa)姐军、ip異常(異地訪問(wèn))铁材、行為異常(突然大量點(diǎn)擊廣告、點(diǎn)贊)奕锌、數(shù)據(jù)包不完整等


定價(jià)策略


數(shù)據(jù)分析通常包括幾個(gè)階段:
提出/發(fā)現(xiàn)問(wèn)題——獲取并清洗數(shù)據(jù)——建闹酰——調(diào)整優(yōu)化——輸出結(jié)論。


數(shù)學(xué)問(wèn)題:


假設(shè)檢驗(yàn):根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法惊暴。
----對(duì)總體做假設(shè)
----由樣本做檢驗(yàn)
----假設(shè)檢驗(yàn)的要素:
原假設(shè)(Null Hypothesis)
備擇假設(shè)(Alternative Hypothesis):即與原假設(shè)相悖的陳述
檢驗(yàn)統(tǒng)計(jì)量:用采樣數(shù)據(jù)基于原假設(shè)計(jì)算出的統(tǒng)計(jì)量饼丘,用來(lái)檢驗(yàn)原假設(shè)和備擇假設(shè)
拒絕域:在該區(qū)間,拒絕原假設(shè)辽话,而趨向于備擇假設(shè)
----錯(cuò)誤類型:
類型I: 在給定原假設(shè)是正確的情況下拒絕原假設(shè)的概率(False positive)
α = P(reject H0 | H0 true) 拒真
類型II: 在給定備擇假設(shè)是正確的情況下接受原假設(shè)的概率(False negative)
β = P(accept H0 | H1 true) 取偽


F檢驗(yàn)是干嘛的
1)F檢驗(yàn)是檢驗(yàn)兩個(gè)正態(tài)分布的樣本的方差是否存在顯著差異
2)也可以用于對(duì)多組樣本之間比較
3)計(jì)量中肄鸽,F(xiàn)檢驗(yàn)原假設(shè)所有自變量對(duì)因變量都沒(méi)有影響,排除原假設(shè)說(shuō)明至少有一個(gè)自變量對(duì)因變量有影響


P值
P值(P value)就是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率油啤。
P值典徘,碰巧的概率,對(duì)無(wú)效假設(shè)的統(tǒng)計(jì)意義
P>0.05 碰巧出現(xiàn)的可能性大于5% 不能否定無(wú)效假設(shè) 兩組差別無(wú)顯著意義
P<0.05 碰巧出現(xiàn)的可能性小于5% 可以否定無(wú)效假設(shè) 兩組差別有顯著意義
P<0.01 碰巧出現(xiàn)的可能性小于1% 可以否定無(wú)效假設(shè) 兩者差別有非常顯著意義


大數(shù)定律
大數(shù)定律是指在隨機(jī)試驗(yàn)中益咬,每次出現(xiàn)的結(jié)果不同逮诲,但是大量重復(fù)試驗(yàn)出現(xiàn)的結(jié)果的平均值卻幾乎總是接近于某個(gè)確定的值。原因是幽告,在大量的觀察試驗(yàn)中梅鹦,個(gè)別的、偶然的因素影響而產(chǎn)生的差異將會(huì)相互抵消评腺,從而使現(xiàn)象的必然規(guī)律性顯示出來(lái)帘瞭。


梯度下降
梯度下降法是一個(gè)最優(yōu)化算法,通常也稱為最速下降法蒿讥。最速下降法是求解無(wú)約束優(yōu)化問(wèn)題最簡(jiǎn)單和最古老的方法之一蝶念,雖然現(xiàn)在已經(jīng)不具有實(shí)用性,但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的芋绸。最速下降法是用負(fù)梯度方向?yàn)樗阉鞣较虻拿窖常钏傧陆捣ㄔ浇咏繕?biāo)值,步長(zhǎng)越小摔敛,前進(jìn)越慢廷蓉。

缺點(diǎn):靠近極小值時(shí)收斂速度減慢。直線搜索時(shí)可能會(huì)產(chǎn)生一些問(wèn)題马昙√胰可能會(huì)“之字形”地下降刹悴。


其他


存儲(chǔ)和列存儲(chǔ)的區(qū)別
1)行存儲(chǔ):傳統(tǒng)數(shù)據(jù)庫(kù)的存儲(chǔ)方式,同一張表內(nèi)的數(shù)據(jù)放在一起攒暇,插入更新很快土匀。缺點(diǎn)是每次查詢即使只涉及幾列,也要把所有數(shù)據(jù)讀取
2)列存儲(chǔ):OLAP等情況下形用,將數(shù)據(jù)按照列存儲(chǔ)會(huì)更高效就轧,每一列都可以成為索引,投影很高效田度。缺點(diǎn)是查詢是選擇完成時(shí)妒御,需要對(duì)選擇的列進(jìn)行重新組裝。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末镇饺,一起剝皮案震驚了整個(gè)濱河市乎莉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌兰怠,老刑警劉巖梦鉴,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異揭保,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)魄宏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)秸侣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人宠互,你說(shuō)我怎么就攤上這事味榛。” “怎么了予跌?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵搏色,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我券册,道長(zhǎng)频轿,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任烁焙,我火速辦了婚禮航邢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘骄蝇。我一直安慰自己膳殷,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布九火。 她就那樣靜靜地躺著赚窃,像睡著了一般册招。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上勒极,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天跨细,我揣著相機(jī)與錄音,去河邊找鬼河质。 笑死冀惭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的掀鹅。 我是一名探鬼主播散休,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼乐尊!你這毒婦竟也來(lái)了戚丸?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤扔嵌,失蹤者是張志新(化名)和其女友劉穎限府,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體痢缎,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胁勺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了独旷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片署穗。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖嵌洼,靈堂內(nèi)的尸體忽然破棺而出案疲,到底是詐尸還是另有隱情,我是刑警寧澤麻养,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布褐啡,位于F島的核電站,受9級(jí)特大地震影響鳖昌,放射性物質(zhì)發(fā)生泄漏备畦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一遗遵、第九天 我趴在偏房一處隱蔽的房頂上張望萍恕。 院中可真熱鬧,春花似錦车要、人聲如沸允粤。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)类垫。三九已至司光,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悉患,已是汗流浹背残家。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留售躁,地道東北人坞淮。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像陪捷,于是被迫代替她去往敵國(guó)和親回窘。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容