Excel數(shù)據(jù)挖掘插件

Excel是大家非常熟悉的表格工具,借助它可以實(shí)現(xiàn)日程工作中最原始的數(shù)據(jù)處理的基本的功能青自,此外通過(guò) SQL Server插件的支持攘轩,我們也可以在Excel中實(shí)現(xiàn)數(shù)據(jù)挖掘的功能淋叶。

此篇將先介紹Excel數(shù)據(jù)挖掘中的數(shù)據(jù)準(zhǔn)備工作下的相關(guān)功能。

對(duì)于Excel 2010和2013來(lái)說(shuō)雕拼,需要安裝SQL Server的Excel數(shù)據(jù)挖掘插件才可以實(shí)現(xiàn)數(shù)據(jù)挖掘的功能纵东,下載地址:

http://www.microsoft.com/en-us/download/details.aspx?id=35578

下載的時(shí)候需要注意的是下載的語(yǔ)言版本和x86以及x64的版本要對(duì)應(yīng)得上。

安裝完成后啥寇,可以在開(kāi)始屏幕找到示例數(shù)據(jù)鏈接:

打開(kāi)示例數(shù)據(jù)偎球,可以看到在Excel文件下示例數(shù)據(jù)在不同的Sheet中。

點(diǎn)擊其中的Sheet辑甜,可以看到此篇演示需要用到的示例數(shù)據(jù)衰絮。這是一張經(jīng)過(guò)組織的客戶(hù)信息表,里面包含了客戶(hù)的基本信息磷醋,比如婚姻狀況猫牡,性別,收入以及教育程度等信息邓线。此外還包含一個(gè)狀態(tài)列記錄這個(gè)用戶(hù)是否購(gòu)買(mǎi)了自行車(chē)淌友。

在Ribbon工具欄中可以找到數(shù)據(jù)挖掘工具集DATA MINING煌恢。

此篇介紹的是Data Preparation數(shù)據(jù)準(zhǔn)備下的三個(gè)功能:Explorer Data瀏覽數(shù)據(jù), Clean Data清除數(shù)據(jù)(這里我不太認(rèn)同官方的翻譯,清理數(shù)據(jù)在這里可能更貼切些亩进。)和Sample Data示例數(shù)據(jù)症虑。

首先點(diǎn)擊瀏覽數(shù)據(jù),瀏覽數(shù)據(jù)可以幫助我們?cè)诘谝粫r(shí)間內(nèi)通過(guò)這個(gè)功能對(duì)數(shù)據(jù)進(jìn)行很方便的瀏覽归薛。

在第一個(gè)界面中指定數(shù)據(jù)的范圍。默認(rèn)選擇第一個(gè)選項(xiàng)匪蝙,是一個(gè)sheet下的所有數(shù)據(jù)主籍,如果是第二個(gè)選項(xiàng)的意思是選中的數(shù)據(jù)。這里選擇默認(rèn)選項(xiàng)逛球,點(diǎn)擊下一步千元。

在接下來(lái)的界面中,任意指定數(shù)據(jù)的一列颤绕,比如Region幸海,然后點(diǎn)擊下一步。

可以看到根據(jù)此列生成的數(shù)據(jù)圖表奥务。

此外物独,如果在先前選擇的是連續(xù)類(lèi)型的列,這個(gè)圖標(biāo)會(huì)自動(dòng)組織成離散樣式的氯葬。

留意到Buckets挡篓,可以指定數(shù)值被打散成幾列。

打散之后的列可以通過(guò)點(diǎn)擊界面右下角的Add New Column按鈕將離散的列附加到工作表中帚称。

此外官研,留意界面做小角的兩個(gè)按鈕:

左邊的按鈕是讓數(shù)據(jù)以離散的方式顯示,所以當(dāng)前面如果選中的是Age列的話(huà)闯睹,它會(huì)認(rèn)為每一個(gè)年齡信息都是一個(gè)離散的值戏羽,所以編程了這個(gè)樣子。右面的按鈕是以連續(xù)的方式顯示楼吃,選中這個(gè)方式后系統(tǒng)會(huì)認(rèn)為數(shù)字列是連續(xù)類(lèi)型的始花,所以會(huì)自動(dòng)將連續(xù)類(lèi)型的數(shù)字打散成離散的分組。

以上是對(duì)瀏覽數(shù)據(jù)的介紹所刀,通過(guò)這個(gè)工具可以快速的對(duì)數(shù)據(jù)的情況有一個(gè)大體的了解衙荐,此外也可以通過(guò)離散化的方式向數(shù)據(jù)表中填加附加的列。

接下來(lái)介紹的是數(shù)據(jù)清理功能浮创,分別是Outliers和Re-label忧吟。

首先介紹Outliers功能,這個(gè)功能可以幫助我們清理一些邊緣數(shù)據(jù)斩披,具體的功能請(qǐng)先看喜愛(ài)安的實(shí)現(xiàn)步驟溜族。

點(diǎn)擊Outliers讹俊,跟前面一樣指定好范圍之后,選中一個(gè)列煌抒。

跟瀏覽數(shù)據(jù)一樣仍劈,可以看到不同Distance的數(shù)量分布。

通過(guò)拖動(dòng)上訪(fǎng)的滑塊寡壮,可以指定尾部的哪部分?jǐn)?shù)據(jù)被清理掉贩疙。

繼續(xù)往前滑動(dòng),可以擴(kuò)大清理數(shù)據(jù)的范圍况既。

點(diǎn)擊下一步这溅,指定如何處理這些數(shù)據(jù),這里有三個(gè)選項(xiàng)棒仍,默認(rèn)的是將值轉(zhuǎn)換成Other悲靴,讓它們都合并為一類(lèi),第二個(gè)選項(xiàng)是將值清空莫其,第三個(gè)是將數(shù)據(jù)刪除癞尚。這里選擇第一個(gè)。

最后乱陡,指定劃分劃分之后的數(shù)據(jù)如何處理浇揩,也是有三個(gè)選項(xiàng),一個(gè)是作為一個(gè)新列填加蛋褥,第二個(gè)是將變更的數(shù)據(jù)拷貝到一個(gè)新的工作簿中临燃,最后一個(gè)是直接在數(shù)據(jù)表中修改。這里默認(rèn)選擇第一個(gè)烙心。

點(diǎn)擊完成之后膜廊,可以看到根據(jù)Distance列附加的新列被加到了工作表中,并且淫茵,剛才指定清理掉的數(shù)據(jù)全部被轉(zhuǎn)換成了Other以方便后續(xù)的處理爪瓜。

這個(gè)功能可以理解為清理長(zhǎng)尾數(shù)據(jù),記得有一本書(shū)是書(shū)長(zhǎng)尾理論的匙瘪,它講的是如何關(guān)注長(zhǎng)尾部分的數(shù)據(jù)從而獲取更大的收益铆铆。當(dāng)然還有很多時(shí)候我們?yōu)榱顺醪骄瞳@得數(shù)據(jù)的直觀(guān)和大體的認(rèn)識(shí)是不需要關(guān)注長(zhǎng)尾部分的數(shù)據(jù)的,所以這個(gè)時(shí)候就可以借助這個(gè)功能來(lái)將其清理掉丹喻。

除了對(duì)長(zhǎng)尾部分?jǐn)?shù)據(jù)的清理薄货,對(duì)于連續(xù)型的值,比如年齡碍论,通常只有年齡段中間部分的數(shù)據(jù)才是我們需要關(guān)注的谅猾,所以當(dāng)我們選擇年齡時(shí),可以看到界面變成下面的樣子。

通過(guò)拖動(dòng)兩邊的滑塊税娜,可以指定把哪部分?jǐn)?shù)據(jù)劃分到需要清理的數(shù)據(jù)坐搔。

接下來(lái)介紹Re-Label功能,這是一個(gè)很實(shí)用的功能敬矩,通過(guò)這個(gè)功能我們可以將數(shù)據(jù)打成另一個(gè)標(biāo)簽概行。

點(diǎn)擊Re-Label,指定好數(shù)據(jù)范圍之后弧岳,還是跟以前一樣凳忙,選中一個(gè)列。

在下面的界面中禽炬,可以將這一列不同的值指定為新的標(biāo)簽消略。

比如,像下圖一樣將不同的距離指定成不同的遠(yuǎn)近標(biāo)記瞎抛。

最后,跟上一個(gè)功能一樣却紧,指定新標(biāo)簽的填加方式桐臊。

點(diǎn)擊完成,可以看到新的列作為新標(biāo)簽列填加到了數(shù)據(jù)表中晓殊。

這里有一個(gè)問(wèn)題是断凶,對(duì)于連續(xù)型的數(shù)據(jù),比如年齡要如何設(shè)定巫俺,因?yàn)槲覀儾豢赡軐⒚恳粋€(gè)歲數(shù)认烁,比如21歲另啟一個(gè)標(biāo)簽,22歲再指定一個(gè)標(biāo)簽介汹。所以對(duì)于這類(lèi)連續(xù)型數(shù)據(jù)我們首先要做的是利用前面介紹的瀏覽數(shù)據(jù)功能將數(shù)據(jù)先轉(zhuǎn)換成離散的却嗡,然后再通過(guò)這個(gè)功能將離散的值指派為另一個(gè)標(biāo)簽,比如0-6幼年嘹承,7-15少年等窗价。

最后,介紹示例數(shù)據(jù)功能叹卷,再次吐槽一下官方翻譯撼港,Sample這里根據(jù)環(huán)境應(yīng)該是樣本才對(duì),所以這個(gè)功能翻譯成樣本數(shù)據(jù)更貼切骤竹,因?yàn)樗旧砭褪浅槿颖緮?shù)據(jù)的帝牡。

點(diǎn)擊這個(gè)按鈕后,在第一個(gè)界面中會(huì)給我們兩個(gè)選擇蒙揣,一個(gè)是隨機(jī)樣本數(shù)據(jù)抽取靶溜,一個(gè)是過(guò)度樣本數(shù)據(jù)抽取。

先來(lái)看第一個(gè)抽取方式鸣奔,很簡(jiǎn)單墨技,根據(jù)一定的百分比或者指定的行數(shù)來(lái)進(jìn)行抽取惩阶。

設(shè)定好之后,可以指定把樣本數(shù)據(jù)放到哪里扣汪,同時(shí)也可以指定將沒(méi)有抽中的數(shù)據(jù)放到哪里断楷。

點(diǎn)擊完成之后,可以看到被抽中和沒(méi)有被抽中的數(shù)據(jù)崭别。

接下來(lái)過(guò)度樣本數(shù)據(jù)抽取介紹起來(lái)可能比較繞口冬筒,但我們可以這樣理解,比如當(dāng)我們收到這樣的需求茅主,讓你從數(shù)據(jù)中抽取1000行數(shù)據(jù)舞痰,但是要求這1000行數(shù)據(jù)中,已婚的比例要占到30%诀姚,當(dāng)然响牛,實(shí)際數(shù)據(jù)集中的數(shù)據(jù),已婚的比例有可能是15%赫段,也有可能是50%呀打。所以如何讓這1000行數(shù)據(jù)中恰巧占30%的比例,就可以通過(guò)這個(gè)功能來(lái)實(shí)現(xiàn)糯笙。

比如根據(jù)上面的例子贬丛,我們將已婚比例設(shè)置成30%,樣本大小設(shè)置為10给涕,這里為了演示沒(méi)有設(shè)置成1000主要是為了后面方便結(jié)果的驗(yàn)證豺憔。

點(diǎn)擊下一步,抽樣的數(shù)據(jù)會(huì)被填加到一個(gè)新的工作表中够庙,這里為其取一個(gè)名字恭应。

點(diǎn)擊完成之后,我們可以通過(guò)這10行數(shù)據(jù)看到這個(gè)功能的結(jié)果首启。

相信通過(guò)此篇的閱讀暮屡,你已經(jīng)對(duì)Excel數(shù)據(jù)挖掘插件有了大概的了解。數(shù)據(jù)的準(zhǔn)備是數(shù)據(jù)挖掘中最初始的階段毅桃,這一篇簡(jiǎn)單的介紹了在Excel的數(shù)據(jù)挖掘插件中的這三個(gè)功能褒纲。值得一提的是,此篇介紹的這些功能是完全在Excel中作為Client端完成的钥飞,不需要SQL Server分析服務(wù)的支持莺掠。下篇將要介紹的數(shù)據(jù)挖掘功能是需要SQL Server分析服務(wù)做支持的。

下面是網(wǎng)絡(luò)上提供的SQL Server的安裝程序:

SQL Server 2012 With SP1 官方簡(jiǎn)體中文版(64位版)

MICROSOFT SQL SERVER 2012 ENTERPRISE CORE: FH666-Y346V-7XFQ3-V69JM-RHW28

MICROSOFT SQL SERVER 2012 BUSINESS INTELLIGENCE: HRV7T-DVTM4-V6XG8-P36T4-MRYT6

MICROSOFT SQL SERVER 2012 DEVELOPER: YQWTX-G8T4R-QW4XX-BVH62-GP68Y

MICROSOFT SQL SERVER 2012 ENTERPRISE SERVER/CAL EDITION: 748RB-X4T6B-MRM7V-RTVFF-CHC8H

MICROSOFT SQL SERVER 2012 STANDARD: YFC4R-BRRWB-TVP9Y-6WJQ9-MCJQ7

MICROSOFT SQL SERVER 2012 WEB: FB3W8-YRXDP-G8F8F-C46KG-Q998F

轉(zhuǎn)載于:http://www.17bigdata.com/excel數(shù)據(jù)挖掘插件.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末读宙,一起剝皮案震驚了整個(gè)濱河市彻秆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖唇兑,帶你破解...
    沈念sama閱讀 217,542評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酒朵,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡扎附,警方通過(guò)查閱死者的電腦和手機(jī)蔫耽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)留夜,“玉大人匙铡,你說(shuō)我怎么就攤上這事“啵” “怎么了鳖眼?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,912評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)嚼摩。 經(jīng)常有香客問(wèn)我钦讳,道長(zhǎng),這世上最難降的妖魔是什么枕面? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,449評(píng)論 1 293
  • 正文 為了忘掉前任蜂厅,我火速辦了婚禮,結(jié)果婚禮上膊畴,老公的妹妹穿的比我還像新娘。我一直安慰自己病游,他們只是感情好唇跨,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著衬衬,像睡著了一般买猖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上滋尉,一...
    開(kāi)封第一講書(shū)人閱讀 51,370評(píng)論 1 302
  • 那天玉控,我揣著相機(jī)與錄音,去河邊找鬼狮惜。 笑死高诺,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的碾篡。 我是一名探鬼主播虱而,決...
    沈念sama閱讀 40,193評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼开泽!你這毒婦竟也來(lái)了牡拇?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,074評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎惠呼,沒(méi)想到半個(gè)月后葛菇,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體废恋,經(jīng)...
    沈念sama閱讀 45,505評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了椎侠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,841評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡角溃,死狀恐怖杠愧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情律想,我是刑警寧澤猎莲,帶...
    沈念sama閱讀 35,569評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站技即,受9級(jí)特大地震影響著洼,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜而叼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評(píng)論 3 328
  • 文/蒙蒙 一身笤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧葵陵,春花似錦液荸、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,783評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至绊困,卻和暖如春文搂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背秤朗。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,918評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工煤蹭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人取视。 一個(gè)月前我還...
    沈念sama閱讀 47,962評(píng)論 2 370
  • 正文 我出身青樓硝皂,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親作谭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子吧彪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容