Excel是大家非常熟悉的表格工具,借助它可以實(shí)現(xiàn)日程工作中最原始的數(shù)據(jù)處理的基本的功能青自,此外通過(guò) SQL Server插件的支持攘轩,我們也可以在Excel中實(shí)現(xiàn)數(shù)據(jù)挖掘的功能淋叶。
此篇將先介紹Excel數(shù)據(jù)挖掘中的數(shù)據(jù)準(zhǔn)備工作下的相關(guān)功能。
對(duì)于Excel 2010和2013來(lái)說(shuō)雕拼,需要安裝SQL Server的Excel數(shù)據(jù)挖掘插件才可以實(shí)現(xiàn)數(shù)據(jù)挖掘的功能纵东,下載地址:
http://www.microsoft.com/en-us/download/details.aspx?id=35578
下載的時(shí)候需要注意的是下載的語(yǔ)言版本和x86以及x64的版本要對(duì)應(yīng)得上。
安裝完成后啥寇,可以在開(kāi)始屏幕找到示例數(shù)據(jù)鏈接:
打開(kāi)示例數(shù)據(jù)偎球,可以看到在Excel文件下示例數(shù)據(jù)在不同的Sheet中。
點(diǎn)擊其中的Sheet辑甜,可以看到此篇演示需要用到的示例數(shù)據(jù)衰絮。這是一張經(jīng)過(guò)組織的客戶(hù)信息表,里面包含了客戶(hù)的基本信息磷醋,比如婚姻狀況猫牡,性別,收入以及教育程度等信息邓线。此外還包含一個(gè)狀態(tài)列記錄這個(gè)用戶(hù)是否購(gòu)買(mǎi)了自行車(chē)淌友。
在Ribbon工具欄中可以找到數(shù)據(jù)挖掘工具集DATA MINING煌恢。
此篇介紹的是Data Preparation數(shù)據(jù)準(zhǔn)備下的三個(gè)功能:Explorer Data瀏覽數(shù)據(jù), Clean Data清除數(shù)據(jù)(這里我不太認(rèn)同官方的翻譯,清理數(shù)據(jù)在這里可能更貼切些亩进。)和Sample Data示例數(shù)據(jù)症虑。
首先點(diǎn)擊瀏覽數(shù)據(jù),瀏覽數(shù)據(jù)可以幫助我們?cè)诘谝粫r(shí)間內(nèi)通過(guò)這個(gè)功能對(duì)數(shù)據(jù)進(jìn)行很方便的瀏覽归薛。
在第一個(gè)界面中指定數(shù)據(jù)的范圍。默認(rèn)選擇第一個(gè)選項(xiàng)匪蝙,是一個(gè)sheet下的所有數(shù)據(jù)主籍,如果是第二個(gè)選項(xiàng)的意思是選中的數(shù)據(jù)。這里選擇默認(rèn)選項(xiàng)逛球,點(diǎn)擊下一步千元。
在接下來(lái)的界面中,任意指定數(shù)據(jù)的一列颤绕,比如Region幸海,然后點(diǎn)擊下一步。
可以看到根據(jù)此列生成的數(shù)據(jù)圖表奥务。
此外物独,如果在先前選擇的是連續(xù)類(lèi)型的列,這個(gè)圖標(biāo)會(huì)自動(dòng)組織成離散樣式的氯葬。
留意到Buckets挡篓,可以指定數(shù)值被打散成幾列。
打散之后的列可以通過(guò)點(diǎn)擊界面右下角的Add New Column按鈕將離散的列附加到工作表中帚称。
此外官研,留意界面做小角的兩個(gè)按鈕:
左邊的按鈕是讓數(shù)據(jù)以離散的方式顯示,所以當(dāng)前面如果選中的是Age列的話(huà)闯睹,它會(huì)認(rèn)為每一個(gè)年齡信息都是一個(gè)離散的值戏羽,所以編程了這個(gè)樣子。右面的按鈕是以連續(xù)的方式顯示楼吃,選中這個(gè)方式后系統(tǒng)會(huì)認(rèn)為數(shù)字列是連續(xù)類(lèi)型的始花,所以會(huì)自動(dòng)將連續(xù)類(lèi)型的數(shù)字打散成離散的分組。
以上是對(duì)瀏覽數(shù)據(jù)的介紹所刀,通過(guò)這個(gè)工具可以快速的對(duì)數(shù)據(jù)的情況有一個(gè)大體的了解衙荐,此外也可以通過(guò)離散化的方式向數(shù)據(jù)表中填加附加的列。
接下來(lái)介紹的是數(shù)據(jù)清理功能浮创,分別是Outliers和Re-label忧吟。
首先介紹Outliers功能,這個(gè)功能可以幫助我們清理一些邊緣數(shù)據(jù)斩披,具體的功能請(qǐng)先看喜愛(ài)安的實(shí)現(xiàn)步驟溜族。
點(diǎn)擊Outliers讹俊,跟前面一樣指定好范圍之后,選中一個(gè)列煌抒。
跟瀏覽數(shù)據(jù)一樣仍劈,可以看到不同Distance的數(shù)量分布。
通過(guò)拖動(dòng)上訪(fǎng)的滑塊寡壮,可以指定尾部的哪部分?jǐn)?shù)據(jù)被清理掉贩疙。
繼續(xù)往前滑動(dòng),可以擴(kuò)大清理數(shù)據(jù)的范圍况既。
點(diǎn)擊下一步这溅,指定如何處理這些數(shù)據(jù),這里有三個(gè)選項(xiàng)棒仍,默認(rèn)的是將值轉(zhuǎn)換成Other悲靴,讓它們都合并為一類(lèi),第二個(gè)選項(xiàng)是將值清空莫其,第三個(gè)是將數(shù)據(jù)刪除癞尚。這里選擇第一個(gè)。
最后乱陡,指定劃分劃分之后的數(shù)據(jù)如何處理浇揩,也是有三個(gè)選項(xiàng),一個(gè)是作為一個(gè)新列填加蛋褥,第二個(gè)是將變更的數(shù)據(jù)拷貝到一個(gè)新的工作簿中临燃,最后一個(gè)是直接在數(shù)據(jù)表中修改。這里默認(rèn)選擇第一個(gè)烙心。
點(diǎn)擊完成之后膜廊,可以看到根據(jù)Distance列附加的新列被加到了工作表中,并且淫茵,剛才指定清理掉的數(shù)據(jù)全部被轉(zhuǎn)換成了Other以方便后續(xù)的處理爪瓜。
這個(gè)功能可以理解為清理長(zhǎng)尾數(shù)據(jù),記得有一本書(shū)是書(shū)長(zhǎng)尾理論的匙瘪,它講的是如何關(guān)注長(zhǎng)尾部分的數(shù)據(jù)從而獲取更大的收益铆铆。當(dāng)然還有很多時(shí)候我們?yōu)榱顺醪骄瞳@得數(shù)據(jù)的直觀(guān)和大體的認(rèn)識(shí)是不需要關(guān)注長(zhǎng)尾部分的數(shù)據(jù)的,所以這個(gè)時(shí)候就可以借助這個(gè)功能來(lái)將其清理掉丹喻。
除了對(duì)長(zhǎng)尾部分?jǐn)?shù)據(jù)的清理薄货,對(duì)于連續(xù)型的值,比如年齡碍论,通常只有年齡段中間部分的數(shù)據(jù)才是我們需要關(guān)注的谅猾,所以當(dāng)我們選擇年齡時(shí),可以看到界面變成下面的樣子。
通過(guò)拖動(dòng)兩邊的滑塊税娜,可以指定把哪部分?jǐn)?shù)據(jù)劃分到需要清理的數(shù)據(jù)坐搔。
接下來(lái)介紹Re-Label功能,這是一個(gè)很實(shí)用的功能敬矩,通過(guò)這個(gè)功能我們可以將數(shù)據(jù)打成另一個(gè)標(biāo)簽概行。
點(diǎn)擊Re-Label,指定好數(shù)據(jù)范圍之后弧岳,還是跟以前一樣凳忙,選中一個(gè)列。
在下面的界面中禽炬,可以將這一列不同的值指定為新的標(biāo)簽消略。
比如,像下圖一樣將不同的距離指定成不同的遠(yuǎn)近標(biāo)記瞎抛。
最后,跟上一個(gè)功能一樣却紧,指定新標(biāo)簽的填加方式桐臊。
點(diǎn)擊完成,可以看到新的列作為新標(biāo)簽列填加到了數(shù)據(jù)表中晓殊。
這里有一個(gè)問(wèn)題是断凶,對(duì)于連續(xù)型的數(shù)據(jù),比如年齡要如何設(shè)定巫俺,因?yàn)槲覀儾豢赡軐⒚恳粋€(gè)歲數(shù)认烁,比如21歲另啟一個(gè)標(biāo)簽,22歲再指定一個(gè)標(biāo)簽介汹。所以對(duì)于這類(lèi)連續(xù)型數(shù)據(jù)我們首先要做的是利用前面介紹的瀏覽數(shù)據(jù)功能將數(shù)據(jù)先轉(zhuǎn)換成離散的却嗡,然后再通過(guò)這個(gè)功能將離散的值指派為另一個(gè)標(biāo)簽,比如0-6幼年嘹承,7-15少年等窗价。
最后,介紹示例數(shù)據(jù)功能叹卷,再次吐槽一下官方翻譯撼港,Sample這里根據(jù)環(huán)境應(yīng)該是樣本才對(duì),所以這個(gè)功能翻譯成樣本數(shù)據(jù)更貼切骤竹,因?yàn)樗旧砭褪浅槿颖緮?shù)據(jù)的帝牡。
點(diǎn)擊這個(gè)按鈕后,在第一個(gè)界面中會(huì)給我們兩個(gè)選擇蒙揣,一個(gè)是隨機(jī)樣本數(shù)據(jù)抽取靶溜,一個(gè)是過(guò)度樣本數(shù)據(jù)抽取。
先來(lái)看第一個(gè)抽取方式鸣奔,很簡(jiǎn)單墨技,根據(jù)一定的百分比或者指定的行數(shù)來(lái)進(jìn)行抽取惩阶。
設(shè)定好之后,可以指定把樣本數(shù)據(jù)放到哪里扣汪,同時(shí)也可以指定將沒(méi)有抽中的數(shù)據(jù)放到哪里断楷。
點(diǎn)擊完成之后,可以看到被抽中和沒(méi)有被抽中的數(shù)據(jù)崭别。
接下來(lái)過(guò)度樣本數(shù)據(jù)抽取介紹起來(lái)可能比較繞口冬筒,但我們可以這樣理解,比如當(dāng)我們收到這樣的需求茅主,讓你從數(shù)據(jù)中抽取1000行數(shù)據(jù)舞痰,但是要求這1000行數(shù)據(jù)中,已婚的比例要占到30%诀姚,當(dāng)然响牛,實(shí)際數(shù)據(jù)集中的數(shù)據(jù),已婚的比例有可能是15%赫段,也有可能是50%呀打。所以如何讓這1000行數(shù)據(jù)中恰巧占30%的比例,就可以通過(guò)這個(gè)功能來(lái)實(shí)現(xiàn)糯笙。
比如根據(jù)上面的例子贬丛,我們將已婚比例設(shè)置成30%,樣本大小設(shè)置為10给涕,這里為了演示沒(méi)有設(shè)置成1000主要是為了后面方便結(jié)果的驗(yàn)證豺憔。
點(diǎn)擊下一步,抽樣的數(shù)據(jù)會(huì)被填加到一個(gè)新的工作表中够庙,這里為其取一個(gè)名字恭应。
點(diǎn)擊完成之后,我們可以通過(guò)這10行數(shù)據(jù)看到這個(gè)功能的結(jié)果首启。
相信通過(guò)此篇的閱讀暮屡,你已經(jīng)對(duì)Excel數(shù)據(jù)挖掘插件有了大概的了解。數(shù)據(jù)的準(zhǔn)備是數(shù)據(jù)挖掘中最初始的階段毅桃,這一篇簡(jiǎn)單的介紹了在Excel的數(shù)據(jù)挖掘插件中的這三個(gè)功能褒纲。值得一提的是,此篇介紹的這些功能是完全在Excel中作為Client端完成的钥飞,不需要SQL Server分析服務(wù)的支持莺掠。下篇將要介紹的數(shù)據(jù)挖掘功能是需要SQL Server分析服務(wù)做支持的。
下面是網(wǎng)絡(luò)上提供的SQL Server的安裝程序:
SQL Server 2012 With SP1 官方簡(jiǎn)體中文版(64位版)
MICROSOFT SQL SERVER 2012 ENTERPRISE CORE: FH666-Y346V-7XFQ3-V69JM-RHW28
MICROSOFT SQL SERVER 2012 BUSINESS INTELLIGENCE: HRV7T-DVTM4-V6XG8-P36T4-MRYT6
MICROSOFT SQL SERVER 2012 DEVELOPER: YQWTX-G8T4R-QW4XX-BVH62-GP68Y
MICROSOFT SQL SERVER 2012 ENTERPRISE SERVER/CAL EDITION: 748RB-X4T6B-MRM7V-RTVFF-CHC8H
MICROSOFT SQL SERVER 2012 STANDARD: YFC4R-BRRWB-TVP9Y-6WJQ9-MCJQ7
MICROSOFT SQL SERVER 2012 WEB: FB3W8-YRXDP-G8F8F-C46KG-Q998F
轉(zhuǎn)載于:http://www.17bigdata.com/excel數(shù)據(jù)挖掘插件.html