數(shù)據(jù)埋點(diǎn)方案簡述

數(shù)據(jù)是機(jī)器學(xué)習(xí)的前提讼渊,前面 使用Python爬蟲抓取數(shù)據(jù) 篇介紹了通過爬蟲抓取網(wǎng)頁的方式采集數(shù)據(jù)锦秒。對于新產(chǎn)品幅狮,最重要的事項(xiàng)是獲取用戶贰您,參看前面互聯(lián)網(wǎng)產(chǎn)品怎么發(fā)掘種子用戶和意見領(lǐng)袖?這篇。

在產(chǎn)品上線之后叶沛,最重要的工作就是數(shù)據(jù)分析瘪弓,產(chǎn)品和運(yùn)營人員關(guān)心使用產(chǎn)品的用戶的行為乓旗、使用習(xí)慣集索、人口統(tǒng)計(jì)信息及運(yùn)營指標(biāo)等,這些都依賴于數(shù)據(jù)妆距。埋點(diǎn)是采集數(shù)據(jù)的重要途徑函匕。

數(shù)據(jù)埋點(diǎn)不是新名詞,在電腦網(wǎng)站出來之后就有統(tǒng)計(jì)工具中剩,站長們很熟悉的谷歌、百度統(tǒng)計(jì)等工具结啼,通過在HTML頁面中嵌入它們提供的js代碼實(shí)現(xiàn)數(shù)據(jù)采集。

多說幾句朴译,無論谷歌属铁、百度還是其它的web頁面統(tǒng)計(jì)工具,技術(shù)實(shí)現(xiàn)原理都是由Web服務(wù)器端通過代碼的方式向?yàn)g覽器返回一張1*1像素的透明圖片(在網(wǎng)頁上人眼看不到這張圖片)澜公,圖片的過期時(shí)間設(shè)置成立即過期喇肋,這樣每次打開頁面瀏覽器都會去請求這張圖片,服務(wù)器端就可以記錄下請求數(shù)據(jù)甚侣。明白了原理间学,自己也可以寫一個(gè)簡單的統(tǒng)計(jì)工具。

在設(shè)計(jì)埋點(diǎn)方案之前需要確定收集哪些數(shù)據(jù)详羡,將這些需求匯總,產(chǎn)品实柠、運(yùn)營善涨、技術(shù)一起確定埋點(diǎn)方案。

從埋點(diǎn)位置劃分蟹漓,可以分為:前端埋點(diǎn)源内,后端埋點(diǎn)。

前端埋點(diǎn)

顧名思義就是在用戶可見的那端(APP嗽交、網(wǎng)頁、PC客戶端)嵌入數(shù)據(jù)采集代碼腔寡,像一些第三方的統(tǒng)計(jì)工具掌唾,比如友盟等,前端嵌入它們的SDK糯彬,調(diào)用SDK提供的接口采集數(shù)據(jù)。

前端埋點(diǎn)能收集到用戶在界面上的操作軌跡似扔,這些數(shù)據(jù)后端沒法收集搓谆,比如用戶點(diǎn)擊了哪個(gè)按鈕,打開了哪些頁面黔寇,頁面之間的跳轉(zhuǎn)次序等斩萌。

后端埋點(diǎn)

后端埋點(diǎn)就是在服務(wù)端嵌入代碼,收集數(shù)據(jù)憋飞,由于是在服務(wù)端采集數(shù)據(jù)姆吭,可以避免前端埋點(diǎn)的以下一些問題:

客戶端采集數(shù)據(jù),為了盡量減少對用戶體驗(yàn)的影響瘤睹,需要對采集的數(shù)據(jù)壓縮答倡、暫存驴党,為減少移動(dòng)端的數(shù)據(jù)流量,一般只在網(wǎng)絡(luò)狀況良好的情況下向服務(wù)器發(fā)送數(shù)據(jù)倔既,因此數(shù)據(jù)會有延遲,丟數(shù)據(jù)等弊端佩谣。而在服務(wù)端采集數(shù)據(jù)实蓬,數(shù)據(jù)在內(nèi)網(wǎng)傳輸,數(shù)據(jù)傳輸?shù)募磿r(shí)性強(qiáng)调鬓,丟失數(shù)據(jù)的風(fēng)險(xiǎn)小酌伊。

客戶端采集數(shù)據(jù),如果要增加采集點(diǎn)或變更采集方案虹脯,需要修改客戶端代碼奏候,這就需要發(fā)布新版本,受發(fā)布周期的影響暇榴,而且通常很多用戶并不會及時(shí)更新版本蕉世,將導(dǎo)致新方案不能覆蓋所有用戶。在服務(wù)端采集數(shù)據(jù)則沒有這些問題狠轻。

通過以上比較,實(shí)施時(shí)盡量采用后端埋點(diǎn)查吊,除非后端沒法采集到所需要的數(shù)據(jù)湖蜕。

前端埋點(diǎn)技術(shù)

目前常見的前端埋點(diǎn)技術(shù),有下面三類:

1评也、代碼埋點(diǎn)

谷歌統(tǒng)計(jì)、百度統(tǒng)計(jì)盗迟、友盟等都是代碼埋點(diǎn)的例子。在前端代碼里嵌入數(shù)據(jù)采集代碼艇纺,比如在APP啟動(dòng)時(shí)嵌入邮弹,在按鈕點(diǎn)擊事件里嵌入等。

代碼埋點(diǎn)的優(yōu)點(diǎn)是控制精準(zhǔn)员帮,采集的數(shù)據(jù)項(xiàng)精確导饲。缺點(diǎn):首先是需要開發(fā)人員到處添加采集代碼,添加和修改的工作量大渣锦;其次變更采集策略,需要發(fā)布新版本型檀,代價(jià)巨大听盖;此外對于APP來說還有耗電、消耗數(shù)據(jù)流量仓坞、丟失數(shù)據(jù)的風(fēng)險(xiǎn)腰吟。

2、可視化埋點(diǎn)

從上面可知嫉称,代碼埋點(diǎn)的缺點(diǎn)很多灵疮,最大的缺點(diǎn)是變更需要開發(fā)人員修改代碼,不靈活始藕。為了改善氮趋,有的公司開發(fā)出了可視化埋點(diǎn)技術(shù)江耀,產(chǎn)品與運(yùn)營人員通過GUI界面祥国,鼠標(biāo)點(diǎn)擊的方式隨時(shí)調(diào)整埋點(diǎn)位置晾腔,增加、取消埋點(diǎn)壁查,再也不需要開發(fā)人員的介入剔应,而且不用發(fā)布新版本。

最早提供這種方案的是 Mixpanel 公司峻贮,Github上有該公司發(fā)布的SDK代碼,https://github.com/mixpanel挂捻。國內(nèi)提供可視化埋點(diǎn)技術(shù)的公司大都是在它的基礎(chǔ)上進(jìn)行二次開發(fā)而成船万。

技術(shù)實(shí)現(xiàn)原理

基本原理就是將埋點(diǎn)位置信息做成可配置的資源,通過在后臺管理端上操作生成這些配置声怔,客戶端啟動(dòng)或者定時(shí)從服務(wù)器端獲取這些配置碎节,客戶端根據(jù)最新的配置采集數(shù)據(jù),發(fā)送給服務(wù)端胎撇。

具體實(shí)現(xiàn)是SDK定時(shí)做界面截圖殖氏,在截圖的同時(shí)從界面UI的根對象開始遍歷所有的可視化子對象,得到其層級關(guān)系爵憎。根據(jù)截圖和UI元素的可視化信息重新渲染頁面,識別可埋點(diǎn)的控件宝鼓。當(dāng)產(chǎn)品人員在后臺管理端的截屏畫面上點(diǎn)擊可埋點(diǎn)控件,設(shè)置事件關(guān)聯(lián)方面的配置蛉签,服務(wù)器保存這些配置,客戶端在獲取到這些配置信息以后沥寥,按照新配置采集數(shù)據(jù)。

3片橡、無埋點(diǎn)

原理跟可視化埋點(diǎn)幾乎一樣淮野,唯一的不同就是,無埋點(diǎn)是先把所有控件的操作數(shù)據(jù)采集下來鳄厌,發(fā)給服務(wù)器妈踊,數(shù)據(jù)分析人員在后臺管理端設(shè)置對哪些數(shù)據(jù)進(jìn)行分析。由此可知歪泳,這個(gè)方案收集的數(shù)據(jù)量巨大露筒,增加了網(wǎng)絡(luò)傳輸和服務(wù)器存儲負(fù)擔(dān)。

無埋點(diǎn)比可視化方案優(yōu)勢的地方是收集的歷史數(shù)據(jù)齊全慎式,可以回溯分析過往數(shù)據(jù)伶氢。

工具選擇

國內(nèi)不少數(shù)據(jù)服務(wù)公司提供了數(shù)據(jù)采集癣防、分析工具掌眠,初創(chuàng)公司可以選擇使用它們的服務(wù),不過最好選擇可以獨(dú)立部署的提供方级遭,方便控制,防止數(shù)據(jù)泄漏挫鸽。

總結(jié)一下,數(shù)據(jù)埋點(diǎn)需要根據(jù)需求而定像云,靈活使用以上方案锌雀,揚(yáng)長避短。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末婿牍,一起剝皮案震驚了整個(gè)濱河市等脂,隨后出現(xiàn)的幾起案子撑蚌,更是在濱河造成了極大的恐慌,老刑警劉巖争涌,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亮垫,死亡現(xiàn)場離奇詭異,居然都是意外死亡燃异,警方通過查閱死者的電腦和手機(jī)继蜡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來仅颇,“玉大人稻轨,你說我怎么就攤上這事≌常” “怎么了?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵明场,是天一觀的道長。 經(jīng)常有香客問我逼泣,道長舟舒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任氏仗,我火速辦了婚禮夺鲜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘慷蠕。我一直安慰自己,他們只是感情好流炕,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布浪感。 她就那樣靜靜地躺著饼问,像睡著了一般。 火紅的嫁衣襯著肌膚如雪莱革。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天捐名,我揣著相機(jī)與錄音闹击,去河邊找鬼。 笑死贺归,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的秋冰。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼剑勾,長吁一口氣:“原來是場噩夢啊……” “哼虽另!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起洲赵,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎芝发,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辅鲸,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡独悴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了决采。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坟奥。...
    茶點(diǎn)故事閱讀 38,577評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖晒喷,靈堂內(nèi)的尸體忽然破棺而出访敌,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布雨效,位于F島的核電站废赞,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏唉地。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一耘沼、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧菠隆,春花似錦、人聲如沸骇径。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽晰筛。三九已至,卻和暖如春读第,著一層夾襖步出監(jiān)牢的瞬間拥刻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工盼砍, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人浇坐。 一個(gè)月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓黔宛,卻偏偏與公主長得像,于是被迫代替她去往敵國和親觉渴。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容