1.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn)攀隔,買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題雾叭?
A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
B.聚類
C.分類
D.自然語言處理
2.以下兩種描述分別對應哪兩種對分類算法的評價標準悟耘?
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準织狐。
(b)描述有多少比例的小偷給警察抓了的標準暂幼。
A.Precision,Recall
B.Recall移迫,Precision
C.Precision旺嬉,ROC
D.Recall,ROC
3.將原始數(shù)據(jù)進行集成厨埋、變換邪媳、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務?
A.頻繁模式挖掘
B.分類和預測
C.數(shù)據(jù)預處理
D.數(shù)據(jù)流挖掘
4.當不知道數(shù)據(jù)所帶標簽時雨效,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離迅涮?
A.分類
B.聚類
C.關(guān)聯(lián)分析
D.隱馬爾可夫鏈
5.什么是KDD?
A.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
B.領域知識發(fā)現(xiàn)
C.文檔知識發(fā)現(xiàn)
D.動態(tài)知識發(fā)現(xiàn)
6.使用交互式的和可視化的技術(shù)徽龟,對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務叮姑?
A.探索性數(shù)據(jù)分析
B.建模描述
C.預測建模
D.尋找模式和規(guī)則
7.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務据悔?
A.探索性數(shù)據(jù)分析
B.建模描述
C.預測建模
D.尋找模式和規(guī)則
8.建立一個模型传透,通過這個模型根據(jù)已知的變量值來預測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務?
A.根據(jù)內(nèi)容檢索
B.建模描述
C.預測建模
D.尋找模式和規(guī)則
9.用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式极颓,屬于數(shù)據(jù)挖掘哪一類任務朱盐?
A.根據(jù)內(nèi)容檢索
B.建模描述
C.預測建模
D.尋找模式和規(guī)則
10.以下屬于可伸縮聚類算法的是。
A菠隆、CURE
B兵琳、DENCLUE
C、CLIQUE
D浸赫、OPOSSUM
11.下面哪種不屬于數(shù)據(jù)預處理的方法闰围?
A 變量代換
B 離散化
C 聚集
D估計遺漏值
12.假設12個銷售價格記錄組已經(jīng)排序如下:5,10既峡,11羡榴,13,15运敢,35校仑,50,55传惠,72迄沫,92,204卦方,215使用如下每種方法將它們劃分成四個箱羊瘩。等頻(等深)劃分時,15在第幾個箱子內(nèi)盼砍?
A 第一個
B 第二個
C 第三個
D 第四個
13.上題中尘吗,等寬劃分時(寬度為50),15又在哪個箱子里浇坐?
A 第一個
B 第二個
C 第三個
D 第四個
14.下面哪個不屬于數(shù)據(jù)的屬性類型:
A 標稱
B 序數(shù)
C 區(qū)間
D 相異
15.在上題中睬捶,屬于定量的屬性類型是:
A 標稱
B 序數(shù)
C 區(qū)間
D 相異
16.只有非零值才重要的二元屬性被稱作:
A 計數(shù)屬性
B 離散屬性
C 非對稱的二元屬性
D 對稱屬性
17.以下哪種方法不屬于特征選擇的標準方法:
A 嵌入
B 過濾
C 包裝
D 抽樣
18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:
A 特征提取
B 特征修改
C 映射數(shù)據(jù)到新的空間
D 特征構(gòu)造
19.考慮值集{1、2近刘、3擒贸、4臀晃、5、90}介劫,其截斷均值(p=20%)是
A 2
B 3
C 3.5
D 5
20.下面哪個屬于映射數(shù)據(jù)到新的空間的方法徽惋?
A 傅立葉變換
B 特征加權(quán)
C 漸進抽樣
D 維歸約
21.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:
A1 比特
B 2.6比特
C 3.2比特
D 3.8比特
22.假設屬性income的最大最小值分別是12000元和98000元座韵。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)寂曹。對屬性income的73600元將被轉(zhuǎn)化為:
A 0.821
B 1.224
C 1.458
D 0.716
23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13回右,15,16漱挚,16翔烁,19,20旨涝,20蹬屹,21,22白华,22慨默,25,25弧腥,25厦取,30,33管搪,33虾攻,35,35更鲁,36霎箍,40,45澡为,46漂坏,52,70媒至,問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑顶别,箱的深度為3。第二個箱子值為:
A 18.3
B 22.6
C 26.8
D 27.9
24.考慮值集{12 24 33 24 55 68 26}塘慕,其四分位數(shù)極差是:
A 31
B 24
C 55
D 3
25.一所大學內(nèi)的各年級人數(shù)分別為:一年級200人筋夏,二年級160人,三年級130人图呢,四年級110人条篷。則年級屬性的眾數(shù)是:
A 一年級
B 二年級
C 三年級
D 四年級
26.下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場圖
27.在抽樣方法中骗随,當合適的樣本容量很難確定時,可以使用的抽樣方法是:
A 有放回的簡單隨機抽樣
B 無放回的簡單隨機抽樣
C 分層抽樣
D 漸進抽樣
28.數(shù)據(jù)倉庫是隨著時間變化的赴叹,下面的描述不正確的是
A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容鸿染;
B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照;
C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容乞巧;
D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù)涨椒,這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合.
29.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指:
A.基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫绽媒,數(shù)據(jù)集市和應用程序等結(jié)構(gòu)相關(guān)的信息蚕冬;
B.基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;
C.基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息是辕;
D.基本元數(shù)據(jù)包括關(guān)于裝載和更新處理囤热,分析處理以及管理方面的信息
30.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:
A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;
B.數(shù)據(jù)越詳細获三,粒度就越小旁蔼,級別也就越高;
C.數(shù)據(jù)綜合度越高疙教,粒度也就越大棺聊,級別也就越高;
D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.
31.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點贞谓,不正確的描述是:
A.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)限佩;
B.數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;
C.數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程裸弦,是啟發(fā)式的開發(fā)犀暑;
D.在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流烁兰,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活耐亏,且沒有固定的模式
32.在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是:
A.在完成數(shù)據(jù)倉庫的實施過程中沪斟,需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.
B.當數(shù)據(jù)倉庫的每個單獨組件完成后广辰,就需要對他們進行單元測試.
C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試.
D.在測試之前沒必要制定詳細的測試計劃.
33.OLAP技術(shù)的核心是:
A.在線性;
B.對用戶的快速響應主之;
C.互操作性.
D.多維分析择吊;
34.關(guān)于OLAP的特性,下面正確的是:
(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性
A.(1)(2)(3)
B.(2)(3)(4)
C.(1)(2)(3)(4)
D.(1)(2)(3)(4)(5)
35.關(guān)于OLAP和OLTP的區(qū)別描述槽奕,不正確的是:
A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應用程序不同.
B.與OLAP應用程序不同几睛,OLTP應用程序包含大量相對簡單的事務.
C.OLAP的特點在于事務量大,但事務內(nèi)容比較簡單且重復率高.
D.OLAP是以數(shù)據(jù)倉庫為基礎的粤攒,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng)所森,兩者面對的用戶是相同的.
36.OLAM技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”囱持,下面說法正確的是:
A.OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性焕济;
B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.
C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.
D.OLAM服務器通過用戶圖形借口接收用戶的分析指令纷妆,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.
37.關(guān)于OLAP和OLTP的說法晴弃,下列不正確的是:
A.OLAP事務量大掩幢,但事務內(nèi)容比較簡單且重復率高.
B.OLAP的最終數(shù)據(jù)來源與OLTP不一樣.
C.OLTP面對的是決策人員和高層管理人員.
D.OLTP以應用為核心,是應用驅(qū)動的.
38.設X={1上鞠,2际邻,3}是頻繁項集,則可由X產(chǎn)生____個關(guān)聯(lián)規(guī)則芍阎。
A枯怖、4
B、5
C能曾、6
D、7
39.頻繁項集肿轨、頻繁閉項集寿冕、最大頻繁項集之間的關(guān)系是:
A、頻繁項集頻繁閉項集=最大頻繁項集
B椒袍、頻繁項集=頻繁閉項集最大頻繁項集
C驼唱、頻繁項集頻繁閉項集最大頻繁項集
D、頻繁項集=頻繁閉項集=最大頻繁項集
40.概念分層圖是____圖驹暑。
A玫恳、無向無環(huán)
B、有向無環(huán)
C优俘、有向有環(huán)
D京办、無向有環(huán)
答案:
AACBA, ?ABCAA,
DBADC, ?CDBCA,
BDAAA, ?BDCDC,
ADDDC, ?DACCB