"數(shù)據(jù)驅(qū)動(dòng)"這一概念在互聯(lián)網(wǎng)企業(yè)早已不新鮮。前幾年族奢,我們會(huì)花很大的精力去關(guān)注企業(yè)內(nèi)部數(shù)據(jù),包括:企業(yè)CRM丹鸿,訂單越走,網(wǎng)站分析工具收集的用戶(hù)行為,以及廣告推廣后臺(tái)數(shù)據(jù)等卜高。根據(jù)企業(yè)內(nèi)部的數(shù)據(jù)弥姻,我們可以:判斷營(yíng)銷(xiāo)活動(dòng)與推廣渠道的質(zhì)量與效果,并對(duì)營(yíng)銷(xiāo)組合進(jìn)行優(yōu)化 -- 營(yíng)銷(xiāo)掺涛;對(duì)產(chǎn)品與內(nèi)容進(jìn)行優(yōu)化 -- 運(yùn)營(yíng)庭敦。但是,即便是現(xiàn)在薪缆,企業(yè)也很難利用好內(nèi)部數(shù)據(jù)秧廉,其中一部分原因包括:
1)渠道的效果很大程度地依托于歸因模型,cookie時(shí)長(zhǎng)等因素拣帽,很難去準(zhǔn)確判斷??
2)數(shù)據(jù)收集過(guò)程十分復(fù)雜疼电,而業(yè)務(wù)和分析人員 容易忽略這些因素去決策。
3)營(yíng)銷(xiāo)與運(yùn)營(yíng)需要多數(shù)據(jù)支持减拭,并不局限于內(nèi)部數(shù)據(jù)蔽豺。
所以,越來(lái)越多的互聯(lián)網(wǎng)公司會(huì)試圖打通內(nèi)外部數(shù)據(jù)拧粪,也有不少乙方公司做一些數(shù)據(jù)產(chǎn)品修陡,用于輔助企業(yè)決策沧侥。
接下來(lái)我們就談?wù)勍獠繑?shù)據(jù),外部數(shù)據(jù)主要有以下數(shù)據(jù)源:
1)? 運(yùn)營(yíng)商數(shù)據(jù)
2)互聯(lián)網(wǎng)中的Open API (包括免費(fèi)及付費(fèi))
3)由互聯(lián)網(wǎng)企業(yè)以及數(shù)據(jù)產(chǎn)品企業(yè)組成的數(shù)據(jù)聯(lián)盟(各成員之間的數(shù)據(jù)可以互相Share)
4)DMP產(chǎn)品(主要用于匹配用戶(hù)標(biāo)簽)
5)互聯(lián)網(wǎng)中的數(shù)據(jù)抓绕茄弧(非正規(guī)但很常用)
那么外部數(shù)據(jù)可以做什么宴杀?
1)引入外部數(shù)據(jù)因素,完善KPI預(yù)測(cè)模型拾因。
2)了解行業(yè)與競(jìng)品分析
3)輔佐營(yíng)銷(xiāo)旺罢,比如SEO的數(shù)據(jù),Social 數(shù)據(jù)等
接下來(lái)我們說(shuō)一下非正規(guī)但很常用的抓取绢记,數(shù)據(jù)抓取方法我用了一個(gè)簡(jiǎn)單的腦圖來(lái)表示:
簡(jiǎn)單說(shuō)一下扁达,如果是抓取網(wǎng)頁(yè) 可以通過(guò)抓取網(wǎng)頁(yè),或者找到網(wǎng)頁(yè)所請(qǐng)求的接口庭惜;如果抓取APP上的數(shù)據(jù)罩驻,則需要通過(guò)抓包工具了,比如截取http請(qǐng)求的fiddler护赊,或者截取tcp/ip請(qǐng)求的wireshark工具。
正好前幾天被問(wèn)到砾跃,怎么抓抖音上的數(shù)據(jù)骏啰,于是在這里舉個(gè)例子,
首先打開(kāi)fiddler并且連接手機(jī)抽高,經(jīng)過(guò)一些配置使fiddler可以監(jiān)測(cè)到手機(jī)上的請(qǐng)求判耕。我們可以看到抖音APP請(qǐng)求的數(shù)據(jù)接口(以抖音的某個(gè)列表View為例):
以及返回的數(shù)據(jù)(JSON格式)
以及用戶(hù)數(shù)據(jù)API及返回?cái)?shù)據(jù):
找到了API,后面的抓取就可以通過(guò)調(diào)用API來(lái)進(jìn)行了翘骂,再把返回的Json數(shù)據(jù)中所需要的數(shù)據(jù)截取出來(lái)寫(xiě)入數(shù)據(jù)庫(kù)即可壁熄,當(dāng)然還有一些注意事項(xiàng):
1)HTTP請(qǐng)求時(shí)需要一起發(fā)送的Header
2)接口請(qǐng)求頻率與抓取模式(規(guī)避anti-spam機(jī)制)
3)獲取一條數(shù)據(jù)簡(jiǎn)單,但是大批量獲取難度就大了