標(biāo)簽(空格分隔): 數(shù)據(jù)挖掘 python 數(shù)據(jù)可視化
對于任何一個(gè)企業(yè)雅镊,經(jīng)驗(yàn)豐富众辨、技巧嫻熟的分析師都是企業(yè)的優(yōu)秀資產(chǎn)商佑。但一切都不是天生的豪嚎,良好的個(gè)人規(guī)劃是保障數(shù)據(jù)分析師迅速成長的關(guān)鍵搔驼。
數(shù)據(jù)理解
1、數(shù)據(jù)采集
1侈询、了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌舌涨,包括數(shù)據(jù)產(chǎn)生的時(shí)間、條件扔字、格式囊嘉、內(nèi)容、長度革为、限制條件等扭粱。同時(shí),對數(shù)據(jù)采集邏輯的認(rèn)識(shí)增加了數(shù)據(jù)分析師對數(shù)據(jù)的理解程度震檩,尤其是數(shù)據(jù)中的異常變化琢蛤。很大程度上可以避免"垃圾數(shù)據(jù)進(jìn)導(dǎo)致垃圾數(shù)據(jù)出"的問題。
例子:當(dāng)用戶在離線狀態(tài)下使用APP時(shí),數(shù)據(jù)因無法聯(lián)網(wǎng)而不能發(fā)出虐块,導(dǎo)致正常時(shí)間內(nèi)的數(shù)據(jù)統(tǒng)計(jì)分析延遲俩滥。直到該設(shè)備下次聯(lián)網(wǎng)時(shí),數(shù)據(jù)才能被發(fā)出并歸入當(dāng)時(shí)的時(shí)間贺奠,就產(chǎn)生了不同時(shí)間看相同歷史時(shí)間的數(shù)據(jù)時(shí)會(huì)有出入
2霜旧、數(shù)據(jù)存儲(chǔ)
- 數(shù)據(jù)存儲(chǔ)系統(tǒng)是Mysql,Oracle儡率,sql server挂据,還是其他系統(tǒng)。
- 數(shù)據(jù)倉庫結(jié)構(gòu)及各庫表如何關(guān)聯(lián)儿普,星型崎逃、雪花型,還是其他眉孩。
- 生產(chǎn)數(shù)據(jù)庫接收數(shù)據(jù)時(shí)是否有一定的規(guī)則个绍,比如只接收特定類型的字段。
- 生產(chǎn)數(shù)據(jù)庫面對異常值如何處理浪汪,是強(qiáng)制轉(zhuǎn)換巴柿、留空,還是返回錯(cuò)誤死遭。
- 生產(chǎn)數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)如何存儲(chǔ)數(shù)據(jù)广恢,名稱,含義呀潭,類型钉迷,長度,精度钠署,是否可以為空糠聪,是否唯一,字符編碼以及約束條件規(guī)則是什么谐鼎?
- 接觸到的數(shù)據(jù)是原始數(shù)據(jù)還是ETL后的數(shù)據(jù)枷颊,ETL規(guī)則是什么?
- 數(shù)據(jù)倉庫數(shù)據(jù)的更新機(jī)制是什么该面?是全量更新還是增量更新?
- 不同數(shù)據(jù)庫和庫表之間的同步規(guī)則是什么信卡?哪些因素會(huì)造成數(shù)據(jù)差異隔缀?如何處理差異?等等傍菇。
在數(shù)據(jù)存儲(chǔ)階段坯汤,數(shù)據(jù)分析師需要了解數(shù)據(jù)存儲(chǔ)內(nèi)部的工作機(jī)制和流程曹傀,最核心的因素是在原始數(shù)據(jù)基礎(chǔ)上經(jīng)過哪些加工處理佛嬉,最后得到了怎樣的數(shù)據(jù)丙曙。由于數(shù)據(jù)在存儲(chǔ)階段是不斷地進(jìn)行動(dòng)態(tài)變化和迭代更新的,其及時(shí)性减宣、完整性、有效性、一致性袜腥、準(zhǔn)確性很多時(shí)候因軟硬件、內(nèi)外部環(huán)境問題無法得到保證钉汗,這些都會(huì)導(dǎo)致后期數(shù)據(jù)的應(yīng)用問題羹令。
- 什么是數(shù)據(jù)倉庫
- 什么是ETL
3、數(shù)據(jù)提取
數(shù)據(jù)提取是將數(shù)據(jù)取出的過程损痰。數(shù)據(jù)提取的核心環(huán)節(jié)是從哪雀3蕖?何時(shí)嚷础肪凛?如何取辽社?
- 從哪任扒健?數(shù)據(jù)來源 --- 不同的數(shù)據(jù)源得到的數(shù)據(jù)結(jié)果未必一致爹袁。
- 何時(shí)仍盾?提取時(shí)間 --- 不同時(shí)間取出來的數(shù)據(jù)結(jié)果未必一致失息。
- 如何绕┐尽?提取規(guī)則 --- 不同提取規(guī)則下的數(shù)據(jù)結(jié)果很難一致盹兢。
數(shù)據(jù)提取階段邻梆,首先要求數(shù)據(jù)分析師具備數(shù)據(jù)提取能力。常用的Select From 語句是SQL查詢和提取的必備技能绎秒,但即使是簡單的提取數(shù)據(jù)工作也有不同的層次浦妄。
1、第一層是從單張數(shù)據(jù)庫中按條件提取數(shù)據(jù)的能力
2见芹、第二層是掌握跨庫表提取數(shù)據(jù)的能力剂娄,不同的join有不同的用法;
3玄呛、第三層是優(yōu)化SQL語句阅懦,通過優(yōu)化嵌套,篩選的邏輯層次和遍歷次數(shù)等徘铝,減少浪費(fèi)個(gè)人時(shí)間和消耗系統(tǒng)資源耳胎。
數(shù)據(jù)分析師必須具備理解業(yè)務(wù)需求的能力惯吕,比如業(yè)務(wù)需要“銷售額”這個(gè)字段,相關(guān)字段至少有產(chǎn)品銷售額和產(chǎn)品訂單金額怕午,其中的差別在于是否含優(yōu)惠券废登、運(yùn)費(fèi)等折扣和費(fèi)用。訂單金額包含了應(yīng)用優(yōu)惠券等因素郁惜,計(jì)算邏輯是在產(chǎn)品銷售額(產(chǎn)品單價(jià)*數(shù)量)的基礎(chǔ)上增加運(yùn)費(fèi)堡距,再減去優(yōu)惠券、促銷折扣后的價(jià)格扳炬,該價(jià)格是用戶應(yīng)該支付的金額吏颖。
4、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是面向海量數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)價(jià)值提煉的關(guān)鍵恨樟,以下是算法選擇的基本原則:
- 沒有最好的算法半醉,只有最合適的算法,算法選擇的原則是兼具準(zhǔn)確性劝术、可操作性缩多、可理解性、可應(yīng)用性养晋。
- 沒有一種算法能解決所有的問題衬吆,但是精通一門算法可以解決很多問題。
- 在挖掘算法中最難的是算法調(diào)優(yōu)绳泉,同一種算法在不同場景下的參數(shù)設(shè)定相同逊抡。實(shí)踐是獲得調(diào)優(yōu)經(jīng)驗(yàn)的重要途徑。
需要掌握的與數(shù)據(jù)挖掘相關(guān)的能力:
一是數(shù)據(jù)挖掘零酪、統(tǒng)計(jì)學(xué)冒嫡、數(shù)學(xué)基本原理和常識(shí);
二是熟練使用一門數(shù)據(jù)挖掘工具四苇,Clementine孝凌、SAS或R都是可選項(xiàng),如果是程序員出身也可以選擇編程實(shí)現(xiàn)月腋;
三是需要了解常用的數(shù)據(jù)挖掘算法蟀架,以及每種算法的應(yīng)用場景和優(yōu)劣差異點(diǎn)。
5榆骚、數(shù)據(jù)分析
相對于數(shù)據(jù)挖掘片拍,數(shù)據(jù)分析更多地偏向于業(yè)務(wù)應(yīng)用和解讀,在經(jīng)數(shù)據(jù)挖掘算法得出結(jié)論后妓肢,如何解釋算法在結(jié)果穆碎、可信度、顯著程度等方面對于業(yè)務(wù)的實(shí)際意義职恳?如何將挖掘結(jié)果反饋到業(yè)務(wù)操作過程中以便業(yè)務(wù)理解和實(shí)施是關(guān)鍵所禀。
6、數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)即數(shù)據(jù)可視化的部分放钦,也就是數(shù)據(jù)分析師如何把數(shù)據(jù)觀點(diǎn)展示給業(yè)務(wù)的過程色徘。
7、數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用是數(shù)據(jù)具有落地價(jià)值的具體體現(xiàn)操禀,這個(gè)過程需要數(shù)據(jù)分析師具有數(shù)據(jù)溝通能力褂策,業(yè)務(wù)推動(dòng)能力和項(xiàng)目工作能力。
- 數(shù)據(jù)溝通能力颓屑。深入淺出的數(shù)據(jù)報(bào)告斤寂、言簡意賅的數(shù)據(jù)結(jié)論更利于業(yè)務(wù)理解和接受,打比方揪惦、舉例子都是非常實(shí)用的技巧遍搞。
- 業(yè)務(wù)推動(dòng)能力。在業(yè)務(wù)理解數(shù)據(jù)的基礎(chǔ)上器腋,推動(dòng)業(yè)務(wù)落地實(shí)現(xiàn)數(shù)據(jù)建議溪猿。從業(yè)務(wù)最重要、最緊急纫塌、最能產(chǎn)生效果的環(huán)節(jié)開始是個(gè)好方法诊县,同時(shí)要考慮到業(yè)務(wù)落地的客觀環(huán)境,即好的數(shù)據(jù)結(jié)論需要具備客觀的落地條件措左。
- 項(xiàng)目工作能力依痊。數(shù)據(jù)項(xiàng)目工作是循序漸進(jìn)的過程,無論是一個(gè)數(shù)據(jù)分析項(xiàng)目還是數(shù)據(jù)產(chǎn)品項(xiàng)目怎披,都需要數(shù)據(jù)分析師具備計(jì)劃胸嘁、領(lǐng)導(dǎo)、組織钳枕、控制的項(xiàng)目工作能力缴渊。
對與網(wǎng)站數(shù)據(jù)分析師的具體要求如下:
- 了解基本的網(wǎng)站數(shù)據(jù)分析和數(shù)據(jù)工具,網(wǎng)站分析工具如Google Analytics 鱼炒、百度同級(jí)衔沼、Adobe Analytics、Webtrekk等昔瞧;數(shù)據(jù)分析工具如Excel指蚁、SPSS、Clementinel自晰、SAS凝化、R等,了解不同工具有哪些功能及差異點(diǎn)酬荞。
- 了解網(wǎng)站分析及數(shù)據(jù)分析的基本概念搓劫、定義和規(guī)則瞧哟,比如需要清楚UV、PV枪向、Visit勤揩、IP的區(qū)別以及數(shù)據(jù)差異的影響因素。
- 了解互聯(lián)網(wǎng)工作的基本機(jī)制秘蛔,掌握基本的HTML語言陨亡、編程語言規(guī)則和JavaScript規(guī)則,如果還能了解一些Cookie深员、緩存機(jī)制负蠕、HTTP信息會(huì)更有利于后期的發(fā)展。
- 了解所服務(wù)的業(yè)務(wù)對象倦畅、如營銷業(yè)務(wù)遮糖、網(wǎng)站運(yùn)營業(yè)務(wù)、會(huì)員相關(guān)業(yè)務(wù)等滔迈,理順各種業(yè)務(wù)的具體含義止吁、范疇、流程等燎悍,并且能把數(shù)據(jù)與業(yè)務(wù)工作關(guān)聯(lián)起來敬惦。
數(shù)據(jù)分析師的5點(diǎn)建議
1、數(shù)據(jù)是有立場的谈山,立場決定解讀
(數(shù)據(jù)對于業(yè)務(wù)來講既是KPI的衡量標(biāo)桿俄删,又是業(yè)務(wù)的行動(dòng)指南。有立場的數(shù)據(jù)直接影響數(shù)據(jù)解讀奏路,影響著業(yè)務(wù)的行動(dòng)趨勢畴椰。)
2、數(shù)據(jù)質(zhì)量永遠(yuǎn)是數(shù)據(jù)分析立項(xiàng)后首先要考慮的
(數(shù)據(jù)質(zhì)量驗(yàn)證:
1鸽粉、理解數(shù)據(jù)來源斜脂、數(shù)據(jù)統(tǒng)計(jì)和收集邏輯,以及數(shù)據(jù)入庫處理邏輯触机;
2帚戳、理解數(shù)據(jù)在數(shù)據(jù)倉庫中存放的細(xì)節(jié),包括字段類型儡首、小數(shù)點(diǎn)位數(shù)片任、取值范圍、規(guī)則約束等蔬胯;
3对供、明確數(shù)據(jù)的取數(shù)邏輯,尤其是在過程中是否對數(shù)據(jù)有轉(zhuǎn)換或者重新定義氛濒;
4产场、第一時(shí)間對數(shù)據(jù)做數(shù)據(jù)審查鹅髓,包括數(shù)據(jù)有效性驗(yàn)證、取值范圍京景、空值和異常值驗(yàn)證迈勋,確定其是否與原始數(shù)據(jù)原則一致等。)
5醋粟、業(yè)務(wù)應(yīng)用能力和工具應(yīng)用能力都重要,不要迷信算法和模型
(很多數(shù)據(jù)分析師會(huì)過度關(guān)注算法和模型在數(shù)據(jù)分析過程中的作用重归。但其實(shí)在面向業(yè)務(wù)類的實(shí)際工作中米愿,業(yè)務(wù)要的不是多少種算法或模型,而是要面對業(yè)務(wù)問題的解決方案鼻吮。)
6育苟、業(yè)務(wù)需求是數(shù)據(jù)分析的起點(diǎn),但之前需要培養(yǎng)業(yè)務(wù)的數(shù)據(jù)意識(shí)
業(yè)務(wù)需求是數(shù)據(jù)分析的起點(diǎn)椎木,很多時(shí)候數(shù)據(jù)分析師在“等”業(yè)務(wù)方提出需求违柏,然后通過數(shù)據(jù)支撐業(yè)務(wù)方更好地開展工作。但實(shí)際情況卻是業(yè)務(wù)方不需要數(shù)據(jù)香椎,這種現(xiàn)象既可能是傳統(tǒng)習(xí)慣造成的漱竖,也可能是公司文化影響的,甚至可能是個(gè)人因素導(dǎo)致的畜伐。
數(shù)據(jù)分析師不能要求業(yè)務(wù)方必須懂?dāng)?shù)據(jù)馍惹、理解數(shù)據(jù),但是需要告訴業(yè)務(wù)方數(shù)據(jù)能解決什么問題玛界、帶來哪些改進(jìn)與提升万矾,如何幫助他們解決實(shí)際問題等數(shù)據(jù)價(jià)值告知業(yè)務(wù),如何能用數(shù)據(jù)證明其提升價(jià)值會(huì)更有說服力慎框。這樣業(yè)務(wù)方才會(huì)相信數(shù)據(jù)的有效性良狈、真實(shí)性、準(zhǔn)確性笨枯。