數(shù)據(jù)分析基礎(chǔ)內(nèi)容介紹 — 模型牲尺、工具卵酪、統(tǒng)計(jì)、挖掘與展現(xiàn)

數(shù)據(jù)分析基礎(chǔ)內(nèi)容介紹 — 模型谤碳、工具凛澎、統(tǒng)計(jì)、挖掘與展現(xiàn)

來(lái)自?http://www.199it.com/archives/417399.html

1. 數(shù)據(jù)分析多層模型介紹

這個(gè)金字塔圖像是數(shù)據(jù)分析的多層模型估蹄,從下往上一共有六層:

底下第一層稱(chēng)為Data Sources 元數(shù)據(jù)層塑煎。

比如說(shuō)在生產(chǎn)線上,在生產(chǎn)的數(shù)據(jù)庫(kù)里面臭蚁,各種各樣的數(shù)據(jù)最铁,可能是銀行的業(yè)務(wù)數(shù)據(jù),也可能是電信運(yùn)營(yíng)商在交換機(jī)里面采集下來(lái)的數(shù)據(jù)等等垮兑,然后這些生產(chǎn)的數(shù)據(jù)通過(guò)ETL冷尉,是英文 Extract-Transform-Load 的縮寫(xiě),用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽认登埂(extract)雀哨、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程,通過(guò)這個(gè)過(guò)程雾棺,我們可以把需要的數(shù)據(jù)放到數(shù)據(jù)倉(cāng)庫(kù)里面膊夹,那這個(gè)數(shù)據(jù)倉(cāng)庫(kù)就是多層模型中的第二層。

數(shù)據(jù)倉(cāng)庫(kù)主要是給我們需要存放的數(shù)據(jù)提供一個(gè)物理基礎(chǔ)捌浩,我們對(duì)數(shù)據(jù)進(jìn)行分析放刨,原材料都放在這個(gè)數(shù)據(jù)倉(cāng)庫(kù)里面,這幾年以來(lái)尸饺,除了數(shù)據(jù)倉(cāng)庫(kù)這個(gè)概念进统,還興起了數(shù)據(jù)集市這個(gè)概念,數(shù)據(jù)集市其實(shí)就是部門(mén)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)浪听,規(guī)模比較小一點(diǎn)的數(shù)據(jù)倉(cāng)庫(kù)螟碎。

再上面一層是Data Exploration,這層主要做統(tǒng)計(jì)分析的事情迹栓,比如我們算均值抚芦、標(biāo)準(zhǔn)差服协、方差狡忙、排序棕诵、求最小\大值锅知、中位數(shù)蚓胸、眾數(shù)等等仪搔,這些統(tǒng)計(jì)學(xué)比較常用的指標(biāo)涤伐,另外還有些SQL查詢(xún)語(yǔ)句谒所,總的來(lái)說(shuō)主要是做一些目標(biāo)比較明確洗搂,計(jì)算方法比較清楚的事情消返。

第四層是Data Mining數(shù)據(jù)挖掘?qū)樱?/b>數(shù)據(jù)挖掘與數(shù)據(jù)分析(統(tǒng)計(jì)分析)有什么區(qū)別呢,數(shù)據(jù)分析往往是統(tǒng)計(jì)量和算法比較清楚耘拇,數(shù)據(jù)挖掘往往是目標(biāo)不是很清楚撵颊,在實(shí)現(xiàn)目標(biāo)的過(guò)程中采用什么方法不能確定,所以數(shù)據(jù)挖掘比數(shù)據(jù)分析難度要高很多惫叛。

第五層是數(shù)據(jù)展現(xiàn)層倡勇,把數(shù)據(jù)分析和數(shù)據(jù)挖掘得出來(lái)的結(jié)果通過(guò)數(shù)據(jù)展現(xiàn)層的圖表、報(bào)表把他展現(xiàn)出來(lái)嘉涌,也可以稱(chēng)為數(shù)據(jù)可視化妻熊。

最后把這些圖表、報(bào)表交給決策者仑最,以這個(gè)為基礎(chǔ)做一些決策扔役。

2. 數(shù)據(jù)分析工具簡(jiǎn)介

常用的數(shù)據(jù)分析工具,包括一些廠商的數(shù)據(jù)庫(kù)產(chǎn)品警医,包括IBM的DB2亿胸、甲骨文的Oracle數(shù)據(jù)庫(kù)坯钦。這些廠商的數(shù)據(jù)庫(kù)本身帶有一些統(tǒng)計(jì)分析的包,里面有些標(biāo)準(zhǔn)的功能可以做數(shù)據(jù)分析工作侈玄,但用這些自帶的數(shù)據(jù)分析工具功能相對(duì)不夠?qū)I(yè)婉刀。主要反映在缺乏標(biāo)準(zhǔn)的統(tǒng)計(jì)函數(shù),比如做一個(gè)線性回歸模型拗馒,需要寫(xiě)一大堆SQL語(yǔ)句路星,甚至要寫(xiě)一個(gè)plsql程序才能完成溯街。但是在專(zhuān)業(yè)的統(tǒng)計(jì)軟件只需要寫(xiě)一個(gè)簡(jiǎn)單的函數(shù)就可以完成诱桂。

目前最主流的統(tǒng)計(jì)軟件有R、SAS呈昔、SPSS挥等,R是一個(gè)免費(fèi)的開(kāi)源軟件。

SAS大概是歷史最悠久的統(tǒng)計(jì)軟件堤尾,是一個(gè)商業(yè)軟件肝劲,在60年代就誕生,在70年代以后逐漸商業(yè)化郭宝,發(fā)展到現(xiàn)在SAS已經(jīng)成為國(guó)際標(biāo)準(zhǔn)辞槐。

SPSS也是一個(gè)歷史悠久的統(tǒng)計(jì)軟件,SPSS一開(kāi)始是一個(gè)仿真軟件粘室,后來(lái)演變成一個(gè)統(tǒng)計(jì)軟件榄檬,目前已經(jīng)發(fā)展成為一個(gè)數(shù)據(jù)挖掘軟件,目前被IBM收購(gòu)衔统,變成IBM旗下的一個(gè)產(chǎn)品鹿榜,在社會(huì)學(xué)研究院領(lǐng)域有很多的應(yīng)用。

其他的還有一些軟件锦爵,比如說(shuō)水晶報(bào)表(Crystal Reports)舱殿,在做BI和報(bào)表非常擅長(zhǎng),另外如UCINET也是在社會(huì)學(xué)比較常用的軟件险掀,它可以畫(huà)群體的網(wǎng)絡(luò)圖沪袭,社交關(guān)系圖非常擅長(zhǎng)。

3. 常用統(tǒng)計(jì)方法

使用統(tǒng)計(jì)方法樟氢,有目的地對(duì)收集到的數(shù)據(jù)進(jìn)行分析處理枝恋,并且解讀分析結(jié)果:

常用算法

4. 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是以查找隱藏在數(shù)據(jù)中的信息為目標(biāo)的技術(shù),是應(yīng)用算法從大型數(shù)據(jù)庫(kù)中提取知識(shí)的過(guò)程嗡害,這些算法確定信息項(xiàng)之間的隱性關(guān)聯(lián)焚碌,并且向用戶(hù)顯示這些關(guān)聯(lián)。

數(shù)據(jù)挖掘思想來(lái)源:假設(shè)檢驗(yàn)霸妹,模式識(shí)別十电,人工智能,機(jī)器學(xué)習(xí)

常見(jiàn)數(shù)據(jù)挖掘任務(wù):關(guān)聯(lián)分析,聚類(lèi)分析鹃骂,孤立點(diǎn)分析等等

例:啤酒與尿布的故事

5. 展現(xiàn)層:報(bào)表與圖形

展現(xiàn)層在數(shù)據(jù)分析中是一個(gè)很重要的組成部分台盯,在大家的心目中數(shù)據(jù)分析軟件只是讀數(shù)據(jù)和算數(shù)據(jù),結(jié)果算出來(lái)就OK了畏线。但其實(shí)結(jié)果算出來(lái)以后對(duì)于數(shù)據(jù)分析還遠(yuǎn)沒(méi)有結(jié)束静盅,還需要把結(jié)果展現(xiàn)出來(lái),有些時(shí)候可能結(jié)果的展現(xiàn)比計(jì)算花的時(shí)間還要多寝殴。

下圖是一個(gè)比較老土的報(bào)表蒿叠。

如果那這種報(bào)表給老板看,那體驗(yàn)效果肯定很差蚣常,其實(shí)人的特點(diǎn)對(duì)數(shù)字的感覺(jué)不敏感市咽,如果你那一大堆數(shù)字組成的報(bào)表給老板看,老板肯定不是很高興抵蚊。

人對(duì)圖形會(huì)比較敏感施绎,所以在統(tǒng)計(jì)學(xué)里面通常有比較標(biāo)準(zhǔn)的圖,如餅圖贞绳、柱形圖(垂直和水平)谷醉、虛線圖、水泡圖冈闭、魚(yú)骨圖俱尼、箱線圖等等。

下面是一張?jiān)诘貓D上展現(xiàn)數(shù)據(jù)的展現(xiàn)形式

下圖是關(guān)于使用安卓手機(jī)的數(shù)據(jù)展現(xiàn)

根據(jù)信息圖顯示拒秘,Android先生的頭發(fā)有47%的可能是黑色的号显,戴眼鏡的幾率為37%,有36%的可能是北美人躺酒,30%的可能臉上長(zhǎng)雀斑押蚤。71%的時(shí) 間會(huì)穿T恤,下身穿牛仔褲的時(shí)間占了62%羹应。工作只占了38%揽碘,玩游戲卻占了62%,平均每個(gè)月會(huì)用掉582MB的數(shù)據(jù)流量园匹。這種圖稱(chēng)為信息圖雳刺,在數(shù)據(jù)分析這個(gè)行業(yè)里面,是數(shù)據(jù)展現(xiàn)工作的主要組成部分裸违。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末掖桦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子供汛,更是在濱河造成了極大的恐慌枪汪,老刑警劉巖涌穆,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異雀久,居然都是意外死亡宿稀,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)赖捌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)祝沸,“玉大人,你說(shuō)我怎么就攤上這事越庇≌秩瘢” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵悦荒,是天一觀的道長(zhǎng)唯欣。 經(jīng)常有香客問(wèn)我嘹吨,道長(zhǎng)搬味,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任蟀拷,我火速辦了婚禮碰纬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘问芬。我一直安慰自己悦析,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布此衅。 她就那樣靜靜地躺著强戴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挡鞍。 梳的紋絲不亂的頭發(fā)上骑歹,一...
    開(kāi)封第一講書(shū)人閱讀 49,792評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音墨微,去河邊找鬼道媚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛翘县,可吹牛的內(nèi)容都是我干的最域。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼锈麸,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼镀脂!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起忘伞,我...
    開(kāi)封第一講書(shū)人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤薄翅,失蹤者是張志新(化名)和其女友劉穎钞馁,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體匿刮,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡僧凰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了熟丸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片训措。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖光羞,靈堂內(nèi)的尸體忽然破棺而出绩鸣,到底是詐尸還是另有隱情,我是刑警寧澤纱兑,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布呀闻,位于F島的核電站,受9級(jí)特大地震影響潜慎,放射性物質(zhì)發(fā)生泄漏捡多。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一铐炫、第九天 我趴在偏房一處隱蔽的房頂上張望垒手。 院中可真熱鬧,春花似錦倒信、人聲如沸科贬。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)榜掌。三九已至,卻和暖如春乘综,著一層夾襖步出監(jiān)牢的瞬間憎账,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工瘾带, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鼠哥,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓看政,卻偏偏與公主長(zhǎng)得像朴恳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子允蚣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容