1. 什么是數(shù)據(jù)分析?
????????數(shù)據(jù)分析是指通過某種方法和技巧對準(zhǔn)備好的數(shù)據(jù)進(jìn)行探索、分析品姓,從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律等分析結(jié)果箫措,為特定的研究或商業(yè)目的提供參考腹备。
? ? ? ? 從本質(zhì)上看,要理解數(shù)據(jù)分析應(yīng)從三個方面去把握:一是目標(biāo)斤蔓,數(shù)據(jù)分析的關(guān)鍵在于設(shè)立目標(biāo)植酥,專業(yè)上叫作“有針對性”,其實(shí)就是對業(yè)務(wù)需求的把握弦牡;二是方法友驮,數(shù)據(jù)分析的方法包括描述性分析、統(tǒng)計分析驾锰、數(shù)據(jù)挖掘和大數(shù)據(jù)分析四種卸留,不同的分析方法所使用的情景和功能都是不一樣的,這需要在做數(shù)據(jù)分析時結(jié)合具體的情況選擇使用椭豫;三是結(jié)果耻瑟,數(shù)據(jù)分析最終要得出分析的結(jié)果,結(jié)果對目標(biāo)解釋的強(qiáng)弱赏酥,結(jié)果的應(yīng)用效果如何喳整。
2. 數(shù)據(jù)分析的步驟有哪些?
? ??????明確分析的目的和內(nèi)容:數(shù)據(jù)分析的對象是誰裸扶?數(shù)據(jù)分析的商業(yè)目的是什么框都?最后的結(jié)果要解決什么樣的業(yè)務(wù)問題?對數(shù)據(jù)分析目的的把握姓言,是數(shù)據(jù)分析項目成敗的關(guān)鍵瞬项。
? ? ? ? 數(shù)據(jù)收集:按照確定的數(shù)據(jù)分析和框架內(nèi)容,有目的地收集何荚、整合相關(guān)數(shù)據(jù)的過程,它數(shù)據(jù)分析的基礎(chǔ)猪杭。
? ? ? ? 數(shù)據(jù)預(yù)處理:對收集到的數(shù)據(jù)進(jìn)行加工餐塘、整理,以便開展數(shù)據(jù)分析皂吮,它是數(shù)據(jù)分析前必不可少的階段戒傻。處理的過程可概括起來包括數(shù)據(jù)審查税手、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗證四個步驟需纳。
????????第一步:數(shù)據(jù)審查
? ? ? ? 該步驟檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求芦倒,變量值的內(nèi)容是否與研究的要求一致,是否全面不翩,包括利用描述性統(tǒng)計分析兵扬,檢查各個變量的數(shù)據(jù)類型,變量值的最大值口蝠、最小值器钟、平均數(shù)、中位數(shù)等妙蔗,數(shù)據(jù)個數(shù)傲霸、缺失值或空值個數(shù)等。
? ? ? ? 第二步:數(shù)據(jù)清理
? ? ? ? 該步驟針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值眉反、缺失值昙啄、異常值、可疑數(shù)據(jù)寸五,選用適當(dāng)?shù)姆椒ㄟM(jìn)行“清理”跟衅,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),保證后續(xù)的數(shù)據(jù)分析得出可靠的結(jié)論播歼。當(dāng)然伶跷,數(shù)據(jù)清理還包括對重復(fù)記錄進(jìn)行刪除。
? ? ? ? 第三步:數(shù)據(jù)轉(zhuǎn)換
? ? ? ? 數(shù)據(jù)分析強(qiáng)調(diào)分析對象的可比性秘狞,但不同變量值由于計量單位等不同叭莫,往往造成數(shù)據(jù)不可比。對一些統(tǒng)計指標(biāo)進(jìn)行綜合評價時烁试,如果統(tǒng)計指標(biāo)的性質(zhì)雇初、計量單位不同,則容易引起分析結(jié)果出現(xiàn)較大的誤差减响,再加上分析過程中其他的一些要求靖诗,需要在分析前對數(shù)據(jù)進(jìn)行變換,包括無量綱化處理支示、線性變換刊橘、匯總和聚集、適度概化颂鸿、規(guī)范化促绵、以及屬性構(gòu)造等。
? ? ? ? 第四步:數(shù)據(jù)驗證
? ? ? ? 該步驟的目的是初步評估和判斷數(shù)據(jù)是否滿足統(tǒng)計分析的需要,從而決定是否需要增加或減少數(shù)據(jù)量败晴∨埃可以利用簡單的線性模型及散點(diǎn)圖、直方圖尖坤、折線圖等圖形進(jìn)行探索性分析稳懒,利用相關(guān)分析、一致性檢驗等方法對數(shù)據(jù)的準(zhǔn)確性進(jìn)行驗證慢味,確保不把錯誤和有偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析模型中场梆。
? ? ? ? 數(shù)據(jù)分析:需要選用特定的數(shù)據(jù)分析方法,熟練操作數(shù)據(jù)分析工具贮缕,實(shí)現(xiàn)從數(shù)據(jù)到知識的分析過程辙谜。常用的數(shù)據(jù)分析方法,最基本的是要了解例如方差感昼、回歸装哆、因子、聚類定嗓、分類蜕琴、時間序列等數(shù)據(jù)分析方法的原理、使用范圍宵溅、優(yōu)缺點(diǎn)和結(jié)果的解釋凌简,熟悉“1+1”種數(shù)據(jù)分析工具,一種是Excel恃逻,一種是專業(yè)分析軟件SPSS雏搂、SAS、MATLAB寇损、R等凸郑。
? ? ? ? 數(shù)據(jù)展現(xiàn):數(shù)據(jù)分析的結(jié)果都是通過圖、表的方式呈現(xiàn)的矛市,能更直觀地讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息芙沥、觀點(diǎn)和建議。常用的圖形包括餅形圖浊吏、折線圖而昨、柱形圖/條形圖、散點(diǎn)圖找田、雷達(dá)圖歌憨、金字塔圖、矩陣圖午阵、漏斗圖躺孝、帕累托圖等享扔。
? ? ? ? 報告撰寫:是對整個數(shù)據(jù)分析成果的一個呈現(xiàn)底桂。首先要有一個分析框架植袍,并且結(jié)構(gòu)清晰、主次分明籽懦、圖文病貓于个;其次,數(shù)據(jù)分析報告需要有明確的結(jié)論暮顺、建議和解決方案厅篓,不僅僅是找出問題,更重要的是解決問題捶码,否則稱不上是好的數(shù)據(jù)分析羽氮。
3. 常用的數(shù)據(jù)分析方法有哪些?
? ? ? ? 單純的數(shù)據(jù)加工方法:側(cè)重于數(shù)據(jù)的加工和預(yù)處理惫恼,使用的工具一般是SQL和Excel档押,描述性統(tǒng)計分析和相關(guān)分析
? ? ? ? 基于梳理統(tǒng)計的數(shù)據(jù)分析方法:利用一元函數(shù)積分,根據(jù)概率論和微積分引出數(shù)據(jù)的分布祈纯,從數(shù)據(jù)的分布出發(fā)令宿,進(jìn)行數(shù)據(jù)的抽煙推斷和假設(shè)檢驗,由此引出方差分析腕窥、回歸分析粒没、因子分析等基于數(shù)理統(tǒng)計的數(shù)據(jù)分析方法。
? ? ? ? 基于數(shù)據(jù)挖掘的數(shù)據(jù)分析:根據(jù)歷史數(shù)據(jù)得出某種規(guī)則簇爆,根據(jù)規(guī)則進(jìn)行判斷癞松,例如分類。明白算法原理入蛆,計算過程一般使用計算工具完成响蓉。常用分析方法:聚類分析、分類分析(決策樹安寺、人工神經(jīng)網(wǎng)絡(luò)厕妖、貝葉斯分類方法、支持向量機(jī)挑庶、隨機(jī)森林)言秸、關(guān)聯(lián)規(guī)則、回歸分析迎捺。
? ? ? ? 基于大數(shù)據(jù)的數(shù)據(jù)分析方法:理論基礎(chǔ)是數(shù)據(jù)挖掘和分布式計算原理举畸。大數(shù)據(jù)具有海量、快速凳枝、多樣化和有價值四個方面的重要特征抄沮。
4. 數(shù)理統(tǒng)計與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系跋核?
? ? ? ? 聯(lián)系:他們都來源于統(tǒng)計基礎(chǔ)理論,因此它們的很多方法在很多情況下都是同根同源的叛买。
? ? ? ? 區(qū)別:數(shù)理統(tǒng)計常需要分析人員先作假設(shè)或判斷砂代,然后利用數(shù)據(jù)分析技術(shù)來驗證該假設(shè)是否成立。在數(shù)據(jù)挖掘中率挣,分析人員并不需要對數(shù)據(jù)的內(nèi)在關(guān)系做任何假設(shè)或判斷刻伊,而是會讓數(shù)據(jù)挖掘工具中的算法自動去尋找數(shù)據(jù)中隱藏的關(guān)系或規(guī)律。
? ? ? ? 正確運(yùn)用的思路和方法:針對具體的業(yè)務(wù)分析需求椒功,先確定分析思路捶箱,然后根據(jù)這個分析思路去挑選和匹配合適的分析算法、分析技術(shù)动漾,而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索丁屎,最后可以根據(jù)驗證的效果和資源匹配等一系列因素進(jìn)行綜合權(quán)衡,從而決定最終的思路旱眯、算法和解決方案晨川。
5. 請舉出數(shù)據(jù)分析的幾個例子?
? ? ? ? 哪些商品該不該買键思、哪些客戶是優(yōu)質(zhì)客戶础爬、哪種成分的原料更利于生產(chǎn)、哪個班組的生產(chǎn)質(zhì)量更穩(wěn)定