微軟決策樹-挖掘模型建立及應用;學習使用Microsoft決策樹創(chuàng)建OLAP數(shù)據(jù)挖掘模型;深入理解決策樹分類的數(shù)據(jù)挖掘意義咆槽。
1.打開程序->Microsoft SQL Server 2008->SQL Server Management Studio速那,啟動SQL Server 2008數(shù)據(jù)庫,用Windows身份登錄培廓,新建一個數(shù)據(jù)庫名為ysy,導入數(shù)據(jù)春叫,選擇示例數(shù)據(jù)用Excel導入肩钠,成功導入界面如圖所示。
2.導入的數(shù)據(jù)的界面暂殖。
3.打開程序->Microsoft SQL Server 2008->SQL Server Business Intelligence Development Studio价匠,啟動SQL Server 2008 BI的開發(fā)環(huán)境。在“文件”菜單上呛每,指向“新建”踩窖,然后選擇“項目”。選中“項目類型”窗格中的“商業(yè)智能項目”晨横。選中“模板”窗格中的“Analysis Services項目”洋腮。在“名稱”框中,將新項目重命名手形,單擊“確定”啥供。在右邊的窗口可以看到有以下幾項:數(shù)據(jù)源;數(shù)據(jù)源視圖库糠;挖掘結構等.......
4.右擊數(shù)據(jù)源->新建數(shù)據(jù)源->點擊新建-填寫服務器名(本機服務器用.即可)->選擇到y(tǒng)sy->測試連接伙狐,如果成功點確定->下一步->使用服務賬戶(這一步很關鍵)->即可完成。
5.右擊數(shù)據(jù)源視圖->新建視圖->下一步->下一步->下一步->選擇我們想要進行分析的表為三國勾選上->完成瞬欧。就會出現(xiàn)這樣的視圖贷屎。
6.右擊挖掘結構->新建->下一步->選擇現(xiàn)有關系數(shù)據(jù)庫->此處會顯示有很多種算法的選擇,我們選擇Microsoft決策樹->點擊下一步->事例選中三國-指定數(shù)據(jù)鍵值為序列號艘虎,可預測為身份唉侄,剩下的輸入項可以通過建議去掉沒什么關聯(lián)的,將屬性自動分為連續(xù)型野建、離散型属划、可連續(xù)化的以及序列的(這一步也可通過自己判斷)->在“創(chuàng)建測試集”頁面中,設置“測試數(shù)據(jù)百分比”(一般測試集百分比為30%)->點擊下一步->名稱贬墩,允許鉆取勾選上
7.完成后榴嗅,即可看到右邊窗口出現(xiàn)這樣的三個文件。
8.右擊挖掘結構下面的三國.dmm文件->處理-運行->關閉
(可能會出現(xiàn)這樣的問題:服務器角色沒有權限陶舞,這時就需要返回到SSMS中查看多贏的角色嗽测,顯示只勾選到了public選項,賦予它sysadmin管理員的職能,再次運行即可)
9.選擇挖掘模型查看器即可看到通過決策樹的算法進行的結果分析唠粥。
10.通過觀察發(fā)現(xiàn)當武力值在60到78.8之間的數(shù)據(jù)分析不是很明顯,所以解決辦法就是:
點擊挖掘模型右擊設置算法參數(shù)->最上面的Microsoft_Decision_Trees->在MINIMUM_SUPPORT項中值得地方填上5晤愧,點擊確定后,完成官份。
11.再次查看決策樹的畫法可以看到在武力值在60到78.8之間的數(shù)據(jù)分析又進行了政治的分析:
12.通過觀察依賴關系網(wǎng)絡,將所有鏈接拉到最強鏈接舅巷,發(fā)現(xiàn)武力值對身份的影響是最大的:
13.通過挖掘模型預測結果的界面羔味,在選擇事例表中選擇三國這張表
14.左上角選擇單獨查詢->輸入要預測人的各項輸入值->輸入完成后赋元,將左邊的身份即預測項拖動放進源里面
15.點擊左上角查看結果切換到即可預測身份;
16.假如說想更換屬性的狀態(tài)飒房,比如當出身不是很影響身份的預測搁凸,我們即可將出身的input選擇為忽略即可。
17.通過提升圖护糖,可以清楚的看到預測值和準確值的差別垃你。
實驗總結:在這次的實驗當中,看似簡單的過程惜颇,中間還是出現(xiàn)了各種問題少辣,比如在挖掘結構處理過程中用戶角色沒有權限,對數(shù)據(jù)屬性是連續(xù)漓帅、離散、可連續(xù)化還是序列的判斷不是很準確器予,判斷是否關聯(lián)性大景城有錯誤捐迫,導致決策樹的不準確。決策樹有時候畫出來分叉很多,有時候發(fā)現(xiàn)當某一屬性在一個區(qū)間之間的數(shù)據(jù)分析不是很明顯萌丈,需要再次構造一個有明顯的區(qū)別的樹等等。而且對該軟件還不是很熟悉辆雾,操作起來還是需要步驟的詳細解釋月劈,有些要注意的步驟還是要更注意,比如如果不選擇可以鉆取數(shù)據(jù)的話到時候就不能對數(shù)據(jù)進行操作猜揪,所以要根據(jù)實際情況進行操作。