以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)喂击?()
(a) 警察抓小偷剂癌,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。
(b) 描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)翰绊。
答案:Precision(準(zhǔn)確率), Recall(召回率)當(dāng)決策樹的規(guī)模變得太大時佩谷,即使訓(xùn)練誤差還在繼續(xù)降低旁壮,但是檢驗誤差開始增大,導(dǎo)致模型__________
答案:過擬合熵是為消除不確定性所需要獲得的信息量谐檀,投擲均勻正八面體骰子的熵是______
答案:3比特在一次分類挖掘任務(wù)中抡谐,獲得的結(jié)果是TP(truepositive)=100,TN(truenegative)=89桐猬,F(xiàn)P(falsepositive)=25麦撵,F(xiàn)N(falsenegative)=23,那么該數(shù)據(jù)集中預(yù)測樣本為正樣本(positivesample)的準(zhǔn)確率為____,負(fù)樣本的召回率是______溃肪。
答案:80/100免胃,89/(89+25)數(shù)據(jù)線性可分的含義
答案:可以畫出一條直線(超平面)來將數(shù)據(jù)區(qū)分開關(guān)聯(lián)分析中三個重要指標(biāo)
答案:最小支持度、置信度指標(biāo)惫撰,另一個重要指標(biāo)是lift(提升度)指標(biāo)ID3算法是一個著名的決策樹生成方法羔沙,它采用( ) 來選擇能夠最好地將樣本分類的屬性。而同樣為決策樹生成方法的C4.5算法采用( )來選擇能夠最好地將樣本分類的屬性润绎。
答案:信息增益 信息增益比決策樹是用_______ 作為結(jié)點撬碟,用_______作為分支的樹結(jié)構(gòu)诞挨。
答案:屬性 屬性值當(dāng)決策樹的規(guī)模變得太大時莉撇,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大惶傻,導(dǎo)致模型 棍郎。
答案:過度擬合聚類算法有哪些分類
答案:基于劃分的聚類、基于密度的聚類银室、層次聚類方法涂佃、基于網(wǎng)格的聚類方法、基于模型的聚類方法
K-Means聚類(基于劃分的聚類)蜈敢、DBSCAN(基于密度的聚類)評價聚類有效性的外部指標(biāo)
答案:Jaccard系數(shù)(Jaccard Coefficient,JC)辜荠、FM指數(shù)(Fowlkes and Mallows Index,F(xiàn)MI)抓狭、Rand指數(shù)(Rand Index,RI)和標(biāo)準(zhǔn)化互信息(normalized mutual information)軟二分類(soft binary classification)給出預(yù)測樣本屬于某個類的概率伯病,其典型的評價指標(biāo)有( ),典型的軟二分類算法有( )否过。
答案:AUC午笛, Logistic回歸線性回歸是用( )來求解回歸方程最優(yōu)系數(shù)值的。
答案:最小二乘法Hadoop 2.x 中HDFS默認(rèn)塊的大小為( )MB苗桂。
答案:128MBHadoop安裝方式:
答案:單機(jī)模式药磺、偽分布模式和分布模式Hadoop框架中最核心的設(shè)計是為海量數(shù)據(jù)提供存儲的( )和對數(shù)據(jù)進(jìn)行計算的( )。
答案:HDFS MapReduce設(shè)X={A煤伟,B癌佩,C, D}是頻繁項集木缝,則可由X產(chǎn)生( )個關(guān)聯(lián)規(guī)則。
答案:14個下列哪個程序通常與 NameNode 在一個節(jié)點啟動围辙? ( )
A. SecondaryNameNode B. DataNode
C. TaskTracker D. Jobtracker
答案:Dk折交叉驗證一般k取( )
5或10HDFS 中的 Block 默認(rèn)保存幾份氨肌?( )
A. 3 份 B. 2 份 C. 1 份 D. 不確定
答案:A決策樹中不包含下列哪種結(jié)點?
A. 根結(jié)點 B. 內(nèi)部結(jié)點 C. 外部結(jié)點 D. 葉結(jié)點
答案:C下面()不是常用的知識表示形式
A.規(guī)則 B. 知識基 C. 網(wǎng)絡(luò)權(quán)值 D. 神經(jīng)網(wǎng)絡(luò)
答案:D屬于分類器評價或比較尺度的有:
答案:預(yù)測準(zhǔn)確度 酌畜、召回率和計算復(fù)雜性以下哪個算法不是分類算法 ( )
A DBSCAN B C4.5 C Na?ve Bayes D Logistic回歸
答案:A熵是為消除不確定性所需要獲得的信息量怎囚,投擲均勻正八面體骰子的熵是:
答案:3比特關(guān)于Hadoop的SecondaryNameNode哪項是正確的? ( )
A. 它是 NameNode 的熱備分
B. 它對內(nèi)存沒有要求
C. 它的目的是幫助NameNode合并編輯日志桥胞,減少NameNode啟動時間
D. SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點
答案:C通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為 ()
A 組合(ensemble) B 聚集(aggregate)
C 合并(combination) D 投票(voting)
答案:A在現(xiàn)實世界的數(shù)據(jù)中恳守,元組在某些屬性上缺少值是常有的。處理該問題的各種方法有( )
答案:忽略元組贩虾、使用一個全局常量填充空缺值催烘、使用屬性的平均值填充空缺值、使用最可能的值填充空缺值等缎罢。( )伊群、數(shù)據(jù)規(guī)模、稀疏性和( )等數(shù)據(jù)特性都對聚類分析具有很強(qiáng)影響策精。
高維性舰始、噪聲和離群點數(shù)據(jù)預(yù)處理中的ETL指的是()、()和() 咽袜。
抽取 轉(zhuǎn)換 裝載關(guān)于K均值和DBSCAN的比較丸卷,以下說法不正確的是( )。
A询刹、K均值丟棄被它識別為噪聲的對象谜嫉,而DBSCAN一般聚類所有對象。
B凹联、K均值使用簇的基于原型的概念沐兰,而DBSCAN使用基于密度的概念。
C蔽挠、K均值很難處理非球形的簇和不同大小的簇住闯,DBSCAN可以處理不同大小和不同形狀的簇。
D象泵、K均值可以發(fā)現(xiàn)不是明顯分離的簇寞秃,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇偶惠。
答案:A下列算法屬于聚類算法的是( )
A. DBSCAN B. KNN C. ID3 D. Apriori
答案:A春寿。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基于密度的聚類算法下列哪項通常是集群的最主要瓶頸( )
A. CPU B. 網(wǎng)絡(luò) C. 內(nèi)存 D. 磁盤IO
答案:D將原始數(shù)據(jù)進(jìn)行集成、變換忽孽、維度規(guī)約绑改、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)谢床? ( )
A. 頻繁模式挖掘 B. 分類和預(yù)測
C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘
答案:CHadoop Client 端上傳文件的時候下列哪項正確( )
A. 數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNode
B. Client 端將文件切分為 Block,依次上傳
C. Client 只上傳數(shù)據(jù)到一臺 DataNode厘线,然后由 NameNode 負(fù)責(zé) Block 復(fù)制工作
D. Client 只上傳數(shù)據(jù)到多臺 DataNode识腿,然后由 DataNode 負(fù)責(zé) Block 復(fù)制工作
答案:B分類模型的誤差大致分為兩種:訓(xùn)練誤差(training error)和泛化誤差(generalization error)
答案:√
-
簡述K均值算法的聚類過程
答案:
(1)任意選擇k個對象作為初始的簇中心;
(2) repeat
(3) 根據(jù)簇中對象的平均值, 將每個對象(重新)賦給最類似的簇造壮;
(4) 更新簇的平均值, 即重新計算每個簇中對象的平均值渡讼;
(5) until 不再發(fā)生變化
通常, 采用平方誤差準(zhǔn)則作為收斂函數(shù), 其定義如下
其中, mi是簇Ci的平均值
該準(zhǔn)則試圖使生成的結(jié)果簇盡可能緊湊, 獨立 KDD過程不包含( )耳璧。
A.數(shù)據(jù)準(zhǔn)備 B.數(shù)據(jù)建某审铮
C. 數(shù)據(jù)挖掘 D. 結(jié)果的解釋和評估
答案:B為什么說na?ve Bayesian分類法是na?ve(樸素)的?
答案:樸素貝葉斯分類法假定一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩灾抵伎荨_@個假定稱為類條件獨立性蹬昌。作此假定是為了簡化所需要的計算,并在此意義下成為“樸素的”攀隔。
關(guān)聯(lián)分析中具有較高支持度的項集必然具有較高的置信度皂贩。
答案:×聚類方法DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇昆汹。
答案:√離散屬性總是具有有限個值明刷。
答案:×Boosting的一個優(yōu)點是不會過擬合
答案:×Hadoop 支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。
答案:×分類和回歸都可用于預(yù)測筹煮,分類的輸出是離散的類別值遮精,而回歸的輸出是連續(xù)數(shù)值。
答案:√離群點可以是合法的數(shù)據(jù)對象或者值败潦。
答案:√Hadoop 是 Java 開發(fā)的,所以 MapReduce 只支持 Java 語言編寫准脂。
答案:×
簡述大數(shù)據(jù)的4V特征劫扒?
答案:
4個V(即Volume、Variety狸膏、Value沟饥、Velocity)來概括大數(shù)據(jù)的特征。
1)數(shù)據(jù)體量巨大(Volume)湾戳。大數(shù)據(jù)典型的容量已在TB級贤旷,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
2)數(shù)據(jù)類型繁多(Variety)砾脑。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)幼驶。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多韧衣,包括網(wǎng)絡(luò)日志盅藻、音頻购桑、視頻、圖片氏淑、地理位置信息等勃蜘,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
3)價值密度低(Value)假残。價值密度的高低與數(shù)據(jù)總量的大小成反比缭贡。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
4)處理速度快(Velocity)辉懒。從數(shù)據(jù)的生成到消耗匀归,時間窗口非常小,可用于生成決策的時間非常少耗帕。-
下表中給出一組年薪數(shù)據(jù)穆端,其中X表示大學(xué)畢業(yè)生畢業(yè)后的工作的年數(shù),而Y表示對應(yīng)的年收入仿便,我們采用一元線性回歸表示年薪和工作年數(shù)之間的關(guān)系体啰,回歸系數(shù)采用最小二乘法求解,請求解出大學(xué)畢業(yè)生年薪與工作年數(shù)之間的線性回歸方程嗽仪,并用該方程預(yù)計出畢業(yè)10年的大學(xué)生的年薪為多少荒勇,給出計算過程?
-
決策樹分類算法ID3是用信息增益來做屬性選擇度量的闻坚,下表是一個關(guān)于在某種天氣條件下打網(wǎng)球的例子沽翔,請用信息增益計算方法求出屬性outlook的信息增益值。如果知道Gain(Temperature)=0.029窿凤,Gain(Humidity)=0.151仅偎,Gain(Wind)=0.048,應(yīng)該用哪個屬性做決策樹的根節(jié)點雳殊。這里橘沥,Outlook---天氣,Overcast---陰天夯秃,Humidity---濕度
題53.png
答案:
- 數(shù)據(jù)集中包含14個樣本座咆,其中8個正樣本(yes),6個負(fù)樣本(no)仓洼。則這些元組的期望信息(即熵)為:
Info(D)=-8/14log2(8/14) -6/14log2(6/14)= 0.9852 - 現(xiàn)在觀察每個屬性的期望信息需求介陶。
在屬性O(shè)utlook中,對于sunny色建,正樣本數(shù)為2哺呜,負(fù)樣本數(shù)為3;
對于屬性overcast镀岛,正樣本數(shù)為4弦牡,負(fù)樣本數(shù)為0友驮;
對于屬性rain,正樣本數(shù)為3驾锰,負(fù)樣本數(shù)為2卸留。
按照Outlook劃分樣本得到的期望信息為:
5/14 * ( -2/5log22/5 –3/5log23/5) + 4/14 * ( -3/4log23/4-1/4log21/4) + 5/14 * ( -3/5log23/5 –2/5log22/5)=0.3467+0.2318+0.3467=0.9252
Gain(outlook)=0.9852-0.9252=0.06 - 比較其它屬性的信息增益值,最大的是屬性Humidity椭豫,應(yīng)以它為根節(jié)點耻瑟。