網(wǎng)站數(shù)據(jù)挖掘--從零開始建立數(shù)據(jù)分析師個(gè)人成長體系

標(biāo)簽(空格分隔): 數(shù)據(jù)挖掘 python 數(shù)據(jù)可視化


對于任何一個(gè)企業(yè)雅镊,經(jīng)驗(yàn)豐富众辨、技巧嫻熟的分析師都是企業(yè)的優(yōu)秀資產(chǎn)商佑。但一切都不是天生的豪嚎,良好的個(gè)人規(guī)劃是保障數(shù)據(jù)分析師迅速成長的關(guān)鍵搔驼。

數(shù)據(jù)理解

1、數(shù)據(jù)采集

1侈询、了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌舌涨,包括數(shù)據(jù)產(chǎn)生的時(shí)間、條件扔字、格式囊嘉、內(nèi)容、長度革为、限制條件等扭粱。同時(shí),對數(shù)據(jù)采集邏輯的認(rèn)識(shí)增加了數(shù)據(jù)分析師對數(shù)據(jù)的理解程度震檩,尤其是數(shù)據(jù)中的異常變化琢蛤。很大程度上可以避免"垃圾數(shù)據(jù)進(jìn)導(dǎo)致垃圾數(shù)據(jù)出"的問題。

例子:當(dāng)用戶在離線狀態(tài)下使用APP時(shí),數(shù)據(jù)因無法聯(lián)網(wǎng)而不能發(fā)出虐块,導(dǎo)致正常時(shí)間內(nèi)的數(shù)據(jù)統(tǒng)計(jì)分析延遲俩滥。直到該設(shè)備下次聯(lián)網(wǎng)時(shí),數(shù)據(jù)才能被發(fā)出并歸入當(dāng)時(shí)的時(shí)間贺奠,就產(chǎn)生了不同時(shí)間看相同歷史時(shí)間的數(shù)據(jù)時(shí)會(huì)有出入

2霜旧、數(shù)據(jù)存儲(chǔ)

  • 數(shù)據(jù)存儲(chǔ)系統(tǒng)是Mysql,Oracle儡率,sql server挂据,還是其他系統(tǒng)。
  • 數(shù)據(jù)倉庫結(jié)構(gòu)及各庫表如何關(guān)聯(lián)儿普,星型崎逃、雪花型,還是其他眉孩。
  • 生產(chǎn)數(shù)據(jù)庫接收數(shù)據(jù)時(shí)是否有一定的規(guī)則个绍,比如只接收特定類型的字段。
  • 生產(chǎn)數(shù)據(jù)庫面對異常值如何處理浪汪,是強(qiáng)制轉(zhuǎn)換巴柿、留空,還是返回錯(cuò)誤死遭。
  • 生產(chǎn)數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)如何存儲(chǔ)數(shù)據(jù)广恢,名稱,含義呀潭,類型钉迷,長度,精度钠署,是否可以為空糠聪,是否唯一,字符編碼以及約束條件規(guī)則是什么谐鼎?
  • 接觸到的數(shù)據(jù)是原始數(shù)據(jù)還是ETL后的數(shù)據(jù)枷颊,ETL規(guī)則是什么?
  • 數(shù)據(jù)倉庫數(shù)據(jù)的更新機(jī)制是什么该面?是全量更新還是增量更新?
  • 不同數(shù)據(jù)庫和庫表之間的同步規(guī)則是什么信卡?哪些因素會(huì)造成數(shù)據(jù)差異隔缀?如何處理差異?等等傍菇。

在數(shù)據(jù)存儲(chǔ)階段坯汤,數(shù)據(jù)分析師需要了解數(shù)據(jù)存儲(chǔ)內(nèi)部的工作機(jī)制和流程曹傀,最核心的因素是在原始數(shù)據(jù)基礎(chǔ)上經(jīng)過哪些加工處理佛嬉,最后得到了怎樣的數(shù)據(jù)丙曙。由于數(shù)據(jù)在存儲(chǔ)階段是不斷地進(jìn)行動(dòng)態(tài)變化和迭代更新的,其及時(shí)性减宣、完整性、有效性、一致性袜腥、準(zhǔn)確性很多時(shí)候因軟硬件、內(nèi)外部環(huán)境問題無法得到保證钉汗,這些都會(huì)導(dǎo)致后期數(shù)據(jù)的應(yīng)用問題羹令。

  • 什么是數(shù)據(jù)倉庫
  • 什么是ETL

3、數(shù)據(jù)提取

數(shù)據(jù)提取是將數(shù)據(jù)取出的過程损痰。數(shù)據(jù)提取的核心環(huán)節(jié)是從哪雀3蕖?何時(shí)嚷础肪凛?如何取辽社?

  • 從哪任扒健?數(shù)據(jù)來源 --- 不同的數(shù)據(jù)源得到的數(shù)據(jù)結(jié)果未必一致爹袁。
  • 何時(shí)仍盾?提取時(shí)間 --- 不同時(shí)間取出來的數(shù)據(jù)結(jié)果未必一致失息。
  • 如何绕┐尽?提取規(guī)則 --- 不同提取規(guī)則下的數(shù)據(jù)結(jié)果很難一致盹兢。

數(shù)據(jù)提取階段邻梆,首先要求數(shù)據(jù)分析師具備數(shù)據(jù)提取能力。常用的Select From 語句是SQL查詢和提取的必備技能绎秒,但即使是簡單的提取數(shù)據(jù)工作也有不同的層次浦妄。

1、第一層是從單張數(shù)據(jù)庫中按條件提取數(shù)據(jù)的能力
2见芹、第二層是掌握跨庫表提取數(shù)據(jù)的能力剂娄,不同的join有不同的用法;
3玄呛、第三層是優(yōu)化SQL語句阅懦,通過優(yōu)化嵌套,篩選的邏輯層次和遍歷次數(shù)等徘铝,減少浪費(fèi)個(gè)人時(shí)間和消耗系統(tǒng)資源耳胎。

數(shù)據(jù)分析師必須具備理解業(yè)務(wù)需求的能力惯吕,比如業(yè)務(wù)需要“銷售額”這個(gè)字段,相關(guān)字段至少有產(chǎn)品銷售額和產(chǎn)品訂單金額怕午,其中的差別在于是否含優(yōu)惠券废登、運(yùn)費(fèi)等折扣和費(fèi)用。訂單金額包含了應(yīng)用優(yōu)惠券等因素郁惜,計(jì)算邏輯是在產(chǎn)品銷售額(產(chǎn)品單價(jià)*數(shù)量)的基礎(chǔ)上增加運(yùn)費(fèi)堡距,再減去優(yōu)惠券、促銷折扣后的價(jià)格扳炬,該價(jià)格是用戶應(yīng)該支付的金額吏颖。

4、數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是面向海量數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)價(jià)值提煉的關(guān)鍵恨樟,以下是算法選擇的基本原則:

  • 沒有最好的算法半醉,只有最合適的算法,算法選擇的原則是兼具準(zhǔn)確性劝术、可操作性缩多、可理解性、可應(yīng)用性养晋。
  • 沒有一種算法能解決所有的問題衬吆,但是精通一門算法可以解決很多問題。
  • 在挖掘算法中最難的是算法調(diào)優(yōu)绳泉,同一種算法在不同場景下的參數(shù)設(shè)定相同逊抡。實(shí)踐是獲得調(diào)優(yōu)經(jīng)驗(yàn)的重要途徑。

需要掌握的與數(shù)據(jù)挖掘相關(guān)的能力:
一是數(shù)據(jù)挖掘零酪、統(tǒng)計(jì)學(xué)冒嫡、數(shù)學(xué)基本原理和常識(shí);
二是熟練使用一門數(shù)據(jù)挖掘工具四苇,Clementine孝凌、SAS或R都是可選項(xiàng),如果是程序員出身也可以選擇編程實(shí)現(xiàn)月腋;
三是需要了解常用的數(shù)據(jù)挖掘算法蟀架,以及每種算法的應(yīng)用場景和優(yōu)劣差異點(diǎn)。

5榆骚、數(shù)據(jù)分析

相對于數(shù)據(jù)挖掘片拍,數(shù)據(jù)分析更多地偏向于業(yè)務(wù)應(yīng)用和解讀,在經(jīng)數(shù)據(jù)挖掘算法得出結(jié)論后妓肢,如何解釋算法在結(jié)果穆碎、可信度、顯著程度等方面對于業(yè)務(wù)的實(shí)際意義职恳?如何將挖掘結(jié)果反饋到業(yè)務(wù)操作過程中以便業(yè)務(wù)理解和實(shí)施是關(guān)鍵所禀。

6、數(shù)據(jù)展現(xiàn)

數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分放钦,也就是數(shù)據(jù)分析師如何把數(shù)據(jù)觀點(diǎn)展示給業(yè)務(wù)的過程色徘。

7、數(shù)據(jù)應(yīng)用

數(shù)據(jù)應(yīng)用是數(shù)據(jù)具有落地價(jià)值的具體體現(xiàn)操禀,這個(gè)過程需要數(shù)據(jù)分析師具有數(shù)據(jù)溝通能力褂策,業(yè)務(wù)推動(dòng)能力和項(xiàng)目工作能力。

  • 數(shù)據(jù)溝通能力颓屑。深入淺出的數(shù)據(jù)報(bào)告斤寂、言簡意賅的數(shù)據(jù)結(jié)論更利于業(yè)務(wù)理解和接受,打比方揪惦、舉例子都是非常實(shí)用的技巧遍搞。
  • 業(yè)務(wù)推動(dòng)能力。在業(yè)務(wù)理解數(shù)據(jù)的基礎(chǔ)上器腋,推動(dòng)業(yè)務(wù)落地實(shí)現(xiàn)數(shù)據(jù)建議溪猿。從業(yè)務(wù)最重要、最緊急纫塌、最能產(chǎn)生效果的環(huán)節(jié)開始是個(gè)好方法诊县,同時(shí)要考慮到業(yè)務(wù)落地的客觀環(huán)境,即好的數(shù)據(jù)結(jié)論需要具備客觀的落地條件措左。
  • 項(xiàng)目工作能力依痊。數(shù)據(jù)項(xiàng)目工作是循序漸進(jìn)的過程,無論是一個(gè)數(shù)據(jù)分析項(xiàng)目還是數(shù)據(jù)產(chǎn)品項(xiàng)目怎披,都需要數(shù)據(jù)分析師具備計(jì)劃胸嘁、領(lǐng)導(dǎo)、組織钳枕、控制的項(xiàng)目工作能力缴渊。

對與網(wǎng)站數(shù)據(jù)分析師的具體要求如下:

  • 了解基本的網(wǎng)站數(shù)據(jù)分析和數(shù)據(jù)工具,網(wǎng)站分析工具如Google Analytics 鱼炒、百度同級(jí)衔沼、Adobe Analytics、Webtrekk等昔瞧;數(shù)據(jù)分析工具如Excel指蚁、SPSS、Clementinel自晰、SAS凝化、R等,了解不同工具有哪些功能及差異點(diǎn)酬荞。
  • 了解網(wǎng)站分析及數(shù)據(jù)分析的基本概念搓劫、定義和規(guī)則瞧哟,比如需要清楚UV、PV枪向、Visit勤揩、IP的區(qū)別以及數(shù)據(jù)差異的影響因素。
  • 了解互聯(lián)網(wǎng)工作的基本機(jī)制秘蛔,掌握基本的HTML語言陨亡、編程語言規(guī)則和JavaScript規(guī)則,如果還能了解一些Cookie深员、緩存機(jī)制负蠕、HTTP信息會(huì)更有利于后期的發(fā)展。
  • 了解所服務(wù)的業(yè)務(wù)對象倦畅、如營銷業(yè)務(wù)遮糖、網(wǎng)站運(yùn)營業(yè)務(wù)、會(huì)員相關(guān)業(yè)務(wù)等滔迈,理順各種業(yè)務(wù)的具體含義止吁、范疇、流程等燎悍,并且能把數(shù)據(jù)與業(yè)務(wù)工作關(guān)聯(lián)起來敬惦。

數(shù)據(jù)分析師的5點(diǎn)建議
1、數(shù)據(jù)是有立場的谈山,立場決定解讀
(數(shù)據(jù)對于業(yè)務(wù)來講既是KPI的衡量標(biāo)桿俄删,又是業(yè)務(wù)的行動(dòng)指南。有立場的數(shù)據(jù)直接影響數(shù)據(jù)解讀奏路,影響著業(yè)務(wù)的行動(dòng)趨勢畴椰。)
2、數(shù)據(jù)質(zhì)量永遠(yuǎn)是數(shù)據(jù)分析立項(xiàng)后首先要考慮的
(數(shù)據(jù)質(zhì)量驗(yàn)證:
1鸽粉、理解數(shù)據(jù)來源斜脂、數(shù)據(jù)統(tǒng)計(jì)和收集邏輯,以及數(shù)據(jù)入庫處理邏輯触机;
2帚戳、理解數(shù)據(jù)在數(shù)據(jù)倉庫中存放的細(xì)節(jié),包括字段類型儡首、小數(shù)點(diǎn)位數(shù)片任、取值范圍、規(guī)則約束等蔬胯;
3对供、明確數(shù)據(jù)的取數(shù)邏輯,尤其是在過程中是否對數(shù)據(jù)有轉(zhuǎn)換或者重新定義氛濒;
4产场、第一時(shí)間對數(shù)據(jù)做數(shù)據(jù)審查鹅髓,包括數(shù)據(jù)有效性驗(yàn)證、取值范圍京景、空值和異常值驗(yàn)證迈勋,確定其是否與原始數(shù)據(jù)原則一致等。)
5醋粟、業(yè)務(wù)應(yīng)用能力和工具應(yīng)用能力都重要,不要迷信算法和模型
很多數(shù)據(jù)分析師會(huì)過度關(guān)注算法和模型在數(shù)據(jù)分析過程中的作用重归。但其實(shí)在面向業(yè)務(wù)類的實(shí)際工作中米愿,業(yè)務(wù)要的不是多少種算法或模型,而是要面對業(yè)務(wù)問題的解決方案鼻吮。
6育苟、業(yè)務(wù)需求是數(shù)據(jù)分析的起點(diǎn),但之前需要培養(yǎng)業(yè)務(wù)的數(shù)據(jù)意識(shí)
業(yè)務(wù)需求是數(shù)據(jù)分析的起點(diǎn)椎木,很多時(shí)候數(shù)據(jù)分析師在“等”業(yè)務(wù)方提出需求违柏,然后通過數(shù)據(jù)支撐業(yè)務(wù)方更好地開展工作。但實(shí)際情況卻是業(yè)務(wù)方不需要數(shù)據(jù)香椎,這種現(xiàn)象既可能是傳統(tǒng)習(xí)慣造成的漱竖,也可能是公司文化影響的,甚至可能是個(gè)人因素導(dǎo)致的畜伐。

數(shù)據(jù)分析師不能要求業(yè)務(wù)方必須懂?dāng)?shù)據(jù)馍惹、理解數(shù)據(jù),但是需要告訴業(yè)務(wù)方數(shù)據(jù)能解決什么問題玛界、帶來哪些改進(jìn)與提升万矾,如何幫助他們解決實(shí)際問題等數(shù)據(jù)價(jià)值告知業(yè)務(wù),如何能用數(shù)據(jù)證明其提升價(jià)值會(huì)更有說服力慎框。這樣業(yè)務(wù)方才會(huì)相信數(shù)據(jù)的有效性良狈、真實(shí)性、準(zhǔn)確性笨枯。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末薪丁,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子猎醇,更是在濱河造成了極大的恐慌窥突,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件硫嘶,死亡現(xiàn)場離奇詭異阻问,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)沦疾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門称近,熙熙樓的掌柜王于貴愁眉苦臉地迎上來第队,“玉大人,你說我怎么就攤上這事刨秆〉是” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵衡未,是天一觀的道長尸执。 經(jīng)常有香客問我,道長缓醋,這世上最難降的妖魔是什么如失? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮送粱,結(jié)果婚禮上褪贵,老公的妹妹穿的比我還像新娘。我一直安慰自己抗俄,他們只是感情好脆丁,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著动雹,像睡著了一般槽卫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上洽胶,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天晒夹,我揣著相機(jī)與錄音,去河邊找鬼姊氓。 笑死丐怯,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的翔横。 我是一名探鬼主播读跷,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼禾唁!你這毒婦竟也來了效览?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤荡短,失蹤者是張志新(化名)和其女友劉穎丐枉,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體掘托,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡瘦锹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片弯院。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辱士,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出听绳,到底是詐尸還是另有隱情颂碘,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布椅挣,位于F島的核電站头岔,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏鼠证。R本人自食惡果不足惜切油,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望名惩。 院中可真熱鬧,春花似錦孕荠、人聲如沸娩鹉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽弯予。三九已至,卻和暖如春个曙,著一層夾襖步出監(jiān)牢的瞬間锈嫩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工垦搬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留呼寸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓猴贰,卻偏偏與公主長得像对雪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子米绕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容