SQL題:
表 Cost: date | cname(customer's name) | cost
找出每天花費(fèi)最大的客戶
SELECT date,cname
FROM Cost a INNER JOIN (SELECT date,max(cost) as maxcost FROM Cost GROUP BY date) b
ON a.cost=b.maxcost and a.date=b.date
一個(gè)日志表,有兩列 date,cid(customer id),添加一列is_new表示當(dāng)天這個(gè)用戶是否是新用戶蓖扑,基本邏輯是當(dāng)天用戶id不在之前日期的id集合中戒祠,那么就是新用戶
ALTER TABLE Log
ADD COLUMN is_new Boolean
UPDATE Log
SET is_new = 1
WHERE date,cid in (SELECT min(date),cid from Log GROUP BY cid)
算法問(wèn)題:
SVM算法和核函數(shù):
SVM算法是一個(gè)二分類算法,從數(shù)據(jù)集合中找到一個(gè)超平面叔收,使得兩類數(shù)據(jù)分開(kāi)选酗,這個(gè)超平面距離兩類數(shù)據(jù)之間的間隔最大哑子。
優(yōu)點(diǎn):
1)可以解決小樣本下機(jī)器學(xué)習(xí)的問(wèn)題
2)提高泛化性能
3)可以解決文本分類跪妥、字識(shí)別圖像等方面仍受歡迎
4)避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問(wèn)題
缺點(diǎn):
1)缺失數(shù)據(jù)敏感
2)內(nèi)存消耗大鞋喇,難以解釋
SVM常用和函數(shù):
線性核函數(shù)
多項(xiàng)式核函數(shù)
高斯(RBF)核函數(shù)
sigmoid核函數(shù)
PCA的原理和內(nèi)容
是最常用的線性降維方法,它的目標(biāo)是通過(guò)某種投影將高的數(shù)據(jù)映射到低維空間(一般為協(xié)方差矩陣的特征空間)中表示眉撵,并期望所在投影的維度上數(shù)據(jù)方差最大侦香,以此使用較少數(shù)據(jù)的維度 落塑,同時(shí)較多保留原數(shù)據(jù)的特性。
分析問(wèn)題:
如果次日用戶留存率下降了 5%該怎么分析
留存率=新增用戶中登錄用戶數(shù)/新增用戶數(shù) * 100%(一般統(tǒng)計(jì)周期為天)
次日留存率:(當(dāng)天新增的用戶中鄙皇,在注冊(cè)的第2天還登錄的用戶數(shù))/第一天新增總用戶數(shù)芜赌;
先判斷這個(gè)下降是否合理仰挣,然后從各個(gè)方向頭腦風(fēng)暴
某公司做了很多拉新伴逸、推廣的活動(dòng),用戶是帶來(lái)了很多膘壶,但是留下來(lái)或經(jīng)常返回來(lái)的客戶不一定增長(zhǎng)错蝴,他們有可能是在減少,只不過(guò)是拉新過(guò)來(lái)的人太多了而掩蓋了流失率居高不下的問(wèn)題颓芭,實(shí)際上客戶的留存是在逐漸降低的顷锰。
用戶進(jìn)入時(shí)來(lái)源于不同的渠道,通過(guò)不同的營(yíng)銷手段拉入游戲亡问,這樣我們交叉分析官紫,通過(guò)用戶的后期留存情況就能從一個(gè)層面把握渠道質(zhì)量
(1)首先采用“兩層模型”分析:對(duì)用戶進(jìn)行細(xì)分,包括新老州藕、渠道束世、活動(dòng)、畫(huà)像等多個(gè)維度床玻,然后分別計(jì)算每個(gè)維度下不同用戶的次日留存率毁涉。通過(guò)這種方法定位到導(dǎo)致留存率下降的用戶群體是誰(shuí)
按照獲取客戶渠道進(jìn)行分析
按照獲取客戶時(shí)間進(jìn)行分析
按照用戶行為進(jìn)行分析
不同群組對(duì)產(chǎn)品不同模塊使用狀況的分析
(2)分析留下來(lái)用戶的核心需求和流失用戶的流失原因
內(nèi)部因素
分為獲客(渠道質(zhì)量低、活動(dòng)獲取非目標(biāo)用戶)锈死、滿足需求(新功能改動(dòng)引發(fā)某類用戶不滿)贫堰、提活手段(簽到等提活手段沒(méi)打成目標(biāo)、產(chǎn)品自然使用周期低導(dǎo)致上次獲得的大量用戶短期內(nèi)不需要再使用等)待牵;
外部因素采用PEST分析其屏,政治(政策影響)、經(jīng)濟(jì)(短期內(nèi)主要是競(jìng)爭(zhēng)環(huán)境缨该,如對(duì)競(jìng)爭(zhēng)對(duì)手的活動(dòng))偎行、社會(huì)(輿論壓力、用戶生活方式變化压彭、消費(fèi)心理變化睦优、價(jià)值觀變化等偏好變化)、技術(shù)(創(chuàng)新解決方案的出現(xiàn)壮不、分銷渠道變化等)
玉米如何提高收益汗盘,價(jià)格提高多少才能獲取最大收益
收益 = 單價(jià) * 銷售量,那么我們的策略是提高單位溢價(jià)或者提高銷售規(guī)模询一。
提高單位溢價(jià)的方法:品牌打造獲得長(zhǎng)期溢價(jià)隐孽,但缺陷是需要大量前期營(yíng)銷投入癌椿;加工商品占據(jù)價(jià)值鏈更多環(huán)節(jié),如熟玉米菱阵、玉米汁踢俄、玉米蛋白粉;重定位商品晴及,如禮品化等都办;價(jià)格歧視,根據(jù)價(jià)格敏感度對(duì)不同用戶采用不同定價(jià)虑稼。
銷售量=流量 * 轉(zhuǎn)化率琳钉,上述提高單位溢價(jià)的方法可能對(duì)流量產(chǎn)生影響,也可能對(duì)轉(zhuǎn)化率產(chǎn)生影響蛛倦。
那么 收益 = 單價(jià)流量轉(zhuǎn)化率歌懒,短期內(nèi)能規(guī)模化采用的應(yīng)該是進(jìn)行價(jià)格其實(shí)溯壶,如不同時(shí)間及皂、不同商圈的玉米價(jià)格不同,采取高定價(jià)且改,然后對(duì)價(jià)格敏感的用戶提供優(yōu)惠券等验烧。
頭條放多少?gòu)V告可以獲得最大收益
收益 = 出價(jià)流量點(diǎn)擊率*有效轉(zhuǎn)化率,放廣告的數(shù)量會(huì)在提高流量钾虐,但會(huì)降低匹配程度噪窘,因此降低點(diǎn)擊率。最大收益是找到這個(gè)乘積的最大值效扫,是一個(gè)有約束條件的最優(yōu)化問(wèn)題倔监。
同時(shí)參考價(jià)格歧視方案,可以對(duì)不同的用戶投放不同數(shù)量的廣告菌仁。
收益 = 廣告數(shù)*單條廣告收益
廣告數(shù)量 : 廣告數(shù)量影響著用戶數(shù)量 減少?gòu)V告對(duì)用戶的影響:軟廣浩习,精準(zhǔn)廣告等
單條廣告收益:廣告轉(zhuǎn)化率廣告價(jià)格:提升用戶數(shù)聽(tīng)聲,精準(zhǔn)營(yíng)銷
用戶的點(diǎn)擊率下降2個(gè)百分點(diǎn),該如何分析處理济丘?
先看是什么的點(diǎn)擊率
判斷這個(gè)下降是否合理
然后可以先用戶進(jìn)行拆分(新用戶和老用戶谱秽,不用類型的用戶),但不同類型用戶的點(diǎn)擊率
然后看不同時(shí)間段的點(diǎn)擊率
從產(chǎn)品層摹迷、運(yùn)營(yíng)層疟赊、推薦算法層和用戶體驗(yàn)層進(jìn)行分析,得出結(jié)論峡碉。
APP激活量的來(lái)源渠道很多近哟,怎樣對(duì)來(lái)源渠道變化大的進(jìn)行預(yù)警
1)如果渠道使用時(shí)間較長(zhǎng),認(rèn)為渠道的app激活量滿足一個(gè)分布鲫寄,比較可能是正態(tài)分布吉执。求平均值和標(biāo)準(zhǔn)差疯淫,對(duì)于今日數(shù)值與均值差大于3/2/1個(gè)標(biāo)準(zhǔn)差的渠道進(jìn)行預(yù)警
2)對(duì)于短期的新渠道,直接與均值進(jìn)行對(duì)比戳玫。
用戶剛進(jìn)來(lái)APP的時(shí)候會(huì)選擇屬性熙掺,怎樣在保證有完整用戶信息的同時(shí)讓用戶流失減少
采用技術(shù)接受模型(TAM)來(lái)分析,影響用戶接受選擇屬性這件事的主要因素有:
1)感知有用性:
a. 文案告知用戶選擇屬性能給用戶帶來(lái)的好處
2)感知易用性:
a. 關(guān)聯(lián)用戶第三方賬號(hào)(如微博)咕宿,可以冷啟動(dòng)階段匹配用戶更有可能選擇的屬性币绩,推薦用戶選擇
b. 交互性做好
3)使用者態(tài)度:用戶對(duì)填寫(xiě)信息的態(tài)度
a. 這里需要允許用戶跳過(guò),后續(xù)再提醒用戶填寫(xiě)
b. 告知用戶填寫(xiě)的信息會(huì)受到很好的保護(hù)
4)行為意圖:用戶使用APP的目的性荠列,難以控制
5)外部變量:如操作時(shí)間类浪、操作環(huán)境等载城,這里難以控制
男生點(diǎn)擊率增加肌似,女生點(diǎn)擊率增加,總體為何減少
考慮用戶群體比例的變化
因?yàn)槟信狞c(diǎn)擊率可能有較大差異诉瓦,同時(shí)此時(shí)低點(diǎn)擊率群體的占比增大川队。
如原來(lái)男性20人,點(diǎn)擊1人睬澡;女性100人固额,點(diǎn)擊99人,總點(diǎn)擊率100/120煞聪。
現(xiàn)在男性100人斗躏,點(diǎn)擊6人;女性20人昔脯,點(diǎn)擊20人啄糙,總點(diǎn)擊率26/120。
即那個(gè)段子“A系中智商最低的人去讀B云稚,同時(shí)提高了A系和B系的平均智商隧饼。”
如何識(shí)別作弊用戶(爬蟲(chóng)程序静陈, 或者渠道偽造的假用戶)
分類問(wèn)題可以用機(jī)器學(xué)習(xí)的方法去解決燕雁,下面是我目前想到的特征:
1)渠道特征:渠道、渠道次日留存率鲸拥、渠道流量以及各種比率特征
2)環(huán)境特征:設(shè)備(一般偽造假用戶的工作坊以低端機(jī)為主)拐格、系統(tǒng)(刷量工作坊一般系統(tǒng)更新較慢)、wifi使用情況刑赶、使用時(shí)間捏浊、來(lái)源地區(qū)
3)用戶行為特征:訪問(wèn)時(shí)長(zhǎng)、訪問(wèn)頁(yè)面角撞、使用間隔呛伴、次日留存勃痴、活躍時(shí)間、頁(yè)面跳轉(zhuǎn)行為(假用戶的行為要么過(guò)于一致热康,要么過(guò)于隨機(jī))沛申、頁(yè)面使用行為(正常用戶對(duì)圖片的點(diǎn)擊也是有分布的,假用戶的行為容易過(guò)于隨機(jī))
4)異常特征:設(shè)備號(hào)異常(頻繁重置idfa)姐军、ip異常(異地訪問(wèn))铁材、行為異常(突然大量點(diǎn)擊廣告、點(diǎn)贊)奕锌、數(shù)據(jù)包不完整等
數(shù)據(jù)分析通常包括幾個(gè)階段:
提出/發(fā)現(xiàn)問(wèn)題——獲取并清洗數(shù)據(jù)——建闹酰——調(diào)整優(yōu)化——輸出結(jié)論。
數(shù)學(xué)問(wèn)題:
假設(shè)檢驗(yàn):根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法惊暴。
----對(duì)總體做假設(shè)
----由樣本做檢驗(yàn)
----假設(shè)檢驗(yàn)的要素:
原假設(shè)(Null Hypothesis)
備擇假設(shè)(Alternative Hypothesis):即與原假設(shè)相悖的陳述
檢驗(yàn)統(tǒng)計(jì)量:用采樣數(shù)據(jù)基于原假設(shè)計(jì)算出的統(tǒng)計(jì)量饼丘,用來(lái)檢驗(yàn)原假設(shè)和備擇假設(shè)
拒絕域:在該區(qū)間,拒絕原假設(shè)辽话,而趨向于備擇假設(shè)
----錯(cuò)誤類型:
類型I: 在給定原假設(shè)是正確的情況下拒絕原假設(shè)的概率(False positive)
α = P(reject H0 | H0 true)
拒真
類型II: 在給定備擇假設(shè)是正確的情況下接受原假設(shè)的概率(False negative)
β = P(accept H0 | H1 true)
取偽
F檢驗(yàn)是干嘛的
1)F檢驗(yàn)是檢驗(yàn)兩個(gè)正態(tài)分布的樣本的方差是否存在顯著差異
2)也可以用于對(duì)多組樣本之間比較
3)計(jì)量中肄鸽,F(xiàn)檢驗(yàn)原假設(shè)所有自變量對(duì)因變量都沒(méi)有影響,排除原假設(shè)說(shuō)明至少有一個(gè)自變量對(duì)因變量有影響
P值
P值(P value)就是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率油啤。
P值典徘,碰巧的概率,對(duì)無(wú)效假設(shè)的統(tǒng)計(jì)意義
P>0.05 碰巧出現(xiàn)的可能性大于5% 不能否定無(wú)效假設(shè) 兩組差別無(wú)顯著意義
P<0.05 碰巧出現(xiàn)的可能性小于5% 可以否定無(wú)效假設(shè) 兩組差別有顯著意義
P<0.01 碰巧出現(xiàn)的可能性小于1% 可以否定無(wú)效假設(shè) 兩者差別有非常顯著意義
大數(shù)定律
大數(shù)定律是指在隨機(jī)試驗(yàn)中益咬,每次出現(xiàn)的結(jié)果不同逮诲,但是大量重復(fù)試驗(yàn)出現(xiàn)的結(jié)果的平均值卻幾乎總是接近于某個(gè)確定的值。原因是幽告,在大量的觀察試驗(yàn)中梅鹦,個(gè)別的、偶然的因素影響而產(chǎn)生的差異將會(huì)相互抵消评腺,從而使現(xiàn)象的必然規(guī)律性顯示出來(lái)帘瞭。
梯度下降
梯度下降法是一個(gè)最優(yōu)化算法,通常也稱為最速下降法蒿讥。最速下降法是求解無(wú)約束優(yōu)化問(wèn)題最簡(jiǎn)單和最古老的方法之一蝶念,雖然現(xiàn)在已經(jīng)不具有實(shí)用性,但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的芋绸。最速下降法是用負(fù)梯度方向?yàn)樗阉鞣较虻拿窖常钏傧陆捣ㄔ浇咏繕?biāo)值,步長(zhǎng)越小摔敛,前進(jìn)越慢廷蓉。
缺點(diǎn):靠近極小值時(shí)收斂速度減慢。直線搜索時(shí)可能會(huì)產(chǎn)生一些問(wèn)題马昙√胰可能會(huì)“之字形”地下降刹悴。
其他
存儲(chǔ)和列存儲(chǔ)的區(qū)別
1)行存儲(chǔ):傳統(tǒng)數(shù)據(jù)庫(kù)的存儲(chǔ)方式,同一張表內(nèi)的數(shù)據(jù)放在一起攒暇,插入更新很快土匀。缺點(diǎn)是每次查詢即使只涉及幾列,也要把所有數(shù)據(jù)讀取
2)列存儲(chǔ):OLAP等情況下形用,將數(shù)據(jù)按照列存儲(chǔ)會(huì)更高效就轧,每一列都可以成為索引,投影很高效田度。缺點(diǎn)是查詢是選擇完成時(shí)妒御,需要對(duì)選擇的列進(jìn)行重新組裝。