大數(shù)據(jù)題目

  1. 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)喂击?()
    (a) 警察抓小偷剂癌,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。
    (b) 描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)翰绊。
    答案:Precision(準(zhǔn)確率), Recall(召回率)

  2. 當(dāng)決策樹的規(guī)模變得太大時佩谷,即使訓(xùn)練誤差還在繼續(xù)降低旁壮,但是檢驗誤差開始增大,導(dǎo)致模型__________
    答案:過擬合

  3. 熵是為消除不確定性所需要獲得的信息量谐檀,投擲均勻正八面體骰子的熵是______
    答案:3比特

  4. 在一次分類挖掘任務(wù)中抡谐,獲得的結(jié)果是TP(truepositive)=100,TN(truenegative)=89桐猬,F(xiàn)P(falsepositive)=25麦撵,F(xiàn)N(falsenegative)=23,那么該數(shù)據(jù)集中預(yù)測樣本為正樣本(positivesample)的準(zhǔn)確率為____,負(fù)樣本的召回率是______溃肪。
    答案:80/100免胃,89/(89+25)

  5. 數(shù)據(jù)線性可分的含義
    答案:可以畫出一條直線(超平面)來將數(shù)據(jù)區(qū)分開

  6. 關(guān)聯(lián)分析中三個重要指標(biāo)
    答案:最小支持度、置信度指標(biāo)惫撰,另一個重要指標(biāo)是lift(提升度)指標(biāo)

  7. ID3算法是一個著名的決策樹生成方法羔沙,它采用( ) 來選擇能夠最好地將樣本分類的屬性。而同樣為決策樹生成方法的C4.5算法采用( )來選擇能夠最好地將樣本分類的屬性润绎。
    答案:信息增益 信息增益比

  8. 決策樹是用_______ 作為結(jié)點撬碟,用_______作為分支的樹結(jié)構(gòu)诞挨。
    答案:屬性 屬性值

  9. 當(dāng)決策樹的規(guī)模變得太大時莉撇,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗誤差開始增大惶傻,導(dǎo)致模型 棍郎。
    答案:過度擬合

  10. 聚類算法有哪些分類
    答案:基于劃分的聚類、基于密度的聚類银室、層次聚類方法涂佃、基于網(wǎng)格的聚類方法、基于模型的聚類方法
    K-Means聚類(基于劃分的聚類)蜈敢、DBSCAN(基于密度的聚類)

  11. 評價聚類有效性的外部指標(biāo)
    答案:Jaccard系數(shù)(Jaccard Coefficient,JC)辜荠、FM指數(shù)(Fowlkes and Mallows Index,F(xiàn)MI)抓狭、Rand指數(shù)(Rand Index,RI)和標(biāo)準(zhǔn)化互信息(normalized mutual information)

  12. 軟二分類(soft binary classification)給出預(yù)測樣本屬于某個類的概率伯病,其典型的評價指標(biāo)有( ),典型的軟二分類算法有( )否过。
    答案:AUC午笛, Logistic回歸

  13. 線性回歸是用( )來求解回歸方程最優(yōu)系數(shù)值的。
    答案:最小二乘法

  14. Hadoop 2.x 中HDFS默認(rèn)塊的大小為( )MB苗桂。
    答案:128MB

  15. Hadoop安裝方式:
    答案:單機(jī)模式药磺、偽分布模式和分布模式

  16. Hadoop框架中最核心的設(shè)計是為海量數(shù)據(jù)提供存儲的( )和對數(shù)據(jù)進(jìn)行計算的( )。
    答案:HDFS MapReduce

  17. 設(shè)X={A煤伟,B癌佩,C, D}是頻繁項集木缝,則可由X產(chǎn)生( )個關(guān)聯(lián)規(guī)則。
    答案:14個

  18. 下列哪個程序通常與 NameNode 在一個節(jié)點啟動围辙? ( )
    A. SecondaryNameNode B. DataNode
    C. TaskTracker D. Jobtracker
    答案:D

  19. k折交叉驗證一般k取( )
    5或10

  20. HDFS 中的 Block 默認(rèn)保存幾份氨肌?( )
    A. 3 份 B. 2 份 C. 1 份 D. 不確定
    答案:A

  21. 決策樹中不包含下列哪種結(jié)點?
    A. 根結(jié)點 B. 內(nèi)部結(jié)點 C. 外部結(jié)點 D. 葉結(jié)點
    答案:C

  22. 下面()不是常用的知識表示形式
    A.規(guī)則 B. 知識基 C. 網(wǎng)絡(luò)權(quán)值 D. 神經(jīng)網(wǎng)絡(luò)
    答案:D

  23. 屬于分類器評價或比較尺度的有:
    答案:預(yù)測準(zhǔn)確度 酌畜、召回率和計算復(fù)雜性

  24. 以下哪個算法不是分類算法 ( )
    A DBSCAN B C4.5 C Na?ve Bayes D Logistic回歸
    答案:A

  25. 熵是為消除不確定性所需要獲得的信息量怎囚,投擲均勻正八面體骰子的熵是:
    答案:3比特

  26. 關(guān)于Hadoop的SecondaryNameNode哪項是正確的? ( )
    A. 它是 NameNode 的熱備分
    B. 它對內(nèi)存沒有要求
    C. 它的目的是幫助NameNode合并編輯日志桥胞,減少NameNode啟動時間
    D. SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點
    答案:C

  27. 通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為 ()
    A 組合(ensemble) B 聚集(aggregate)
    C 合并(combination) D 投票(voting)
    答案:A

  28. 在現(xiàn)實世界的數(shù)據(jù)中恳守,元組在某些屬性上缺少值是常有的。處理該問題的各種方法有( )
    答案:忽略元組贩虾、使用一個全局常量填充空缺值催烘、使用屬性的平均值填充空缺值、使用最可能的值填充空缺值等缎罢。

  29. ( )伊群、數(shù)據(jù)規(guī)模、稀疏性和( )等數(shù)據(jù)特性都對聚類分析具有很強(qiáng)影響策精。
    高維性舰始、噪聲和離群點

  30. 數(shù)據(jù)預(yù)處理中的ETL指的是()、()和() 咽袜。
    抽取 轉(zhuǎn)換 裝載

  31. 關(guān)于K均值和DBSCAN的比較丸卷,以下說法不正確的是( )。
    A询刹、K均值丟棄被它識別為噪聲的對象谜嫉,而DBSCAN一般聚類所有對象。
    B凹联、K均值使用簇的基于原型的概念沐兰,而DBSCAN使用基于密度的概念。
    C蔽挠、K均值很難處理非球形的簇和不同大小的簇住闯,DBSCAN可以處理不同大小和不同形狀的簇。
    D象泵、K均值可以發(fā)現(xiàn)不是明顯分離的簇寞秃,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇偶惠。
    答案:A

  32. 下列算法屬于聚類算法的是( )
    A. DBSCAN B. KNN C. ID3 D. Apriori
    答案:A春寿。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基于密度的聚類算法

  33. 下列哪項通常是集群的最主要瓶頸( )
    A. CPU B. 網(wǎng)絡(luò) C. 內(nèi)存 D. 磁盤IO
    答案:D

  34. 將原始數(shù)據(jù)進(jìn)行集成、變換忽孽、維度規(guī)約绑改、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)谢床? ( )
    A. 頻繁模式挖掘 B. 分類和預(yù)測
    C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘
    答案:C

  35. Hadoop Client 端上傳文件的時候下列哪項正確( )
    A. 數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNode
    B. Client 端將文件切分為 Block,依次上傳
    C. Client 只上傳數(shù)據(jù)到一臺 DataNode厘线,然后由 NameNode 負(fù)責(zé) Block 復(fù)制工作
    D. Client 只上傳數(shù)據(jù)到多臺 DataNode识腿,然后由 DataNode 負(fù)責(zé) Block 復(fù)制工作
    答案:B

  36. 分類模型的誤差大致分為兩種:訓(xùn)練誤差(training error)和泛化誤差(generalization error)
    答案:√

題37.png
  1. 簡述K均值算法的聚類過程
    答案:
    (1)任意選擇k個對象作為初始的簇中心;
    (2) repeat
    (3) 根據(jù)簇中對象的平均值, 將每個對象(重新)賦給最類似的簇造壮;
    (4) 更新簇的平均值, 即重新計算每個簇中對象的平均值渡讼;
    (5) until 不再發(fā)生變化
    通常, 采用平方誤差準(zhǔn)則作為收斂函數(shù), 其定義如下



    其中, mi是簇Ci的平均值
    該準(zhǔn)則試圖使生成的結(jié)果簇盡可能緊湊, 獨立

  2. KDD過程不包含(  )耳璧。
    A.數(shù)據(jù)準(zhǔn)備    B.數(shù)據(jù)建某审铮  
    C. 數(shù)據(jù)挖掘   D. 結(jié)果的解釋和評估
    答案:B

  3. 為什么說na?ve Bayesian分類法是na?ve(樸素)的?
    答案:樸素貝葉斯分類法假定一個屬性值對給定類的影響?yīng)毩⒂谄渌鼘傩灾抵伎荨_@個假定稱為類條件獨立性蹬昌。作此假定是為了簡化所需要的計算,并在此意義下成為“樸素的”攀隔。

題41.png
  1. 關(guān)聯(lián)分析中具有較高支持度的項集必然具有較高的置信度皂贩。
    答案:×

  2. 聚類方法DBSCAN是相對抗噪聲的,并且能夠處理任意形狀和大小的簇昆汹。
    答案:√

  3. 離散屬性總是具有有限個值明刷。
    答案:×

  4. Boosting的一個優(yōu)點是不會過擬合
    答案:×

  5. Hadoop 支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。
    答案:×

  6. 分類和回歸都可用于預(yù)測筹煮,分類的輸出是離散的類別值遮精,而回歸的輸出是連續(xù)數(shù)值。
    答案:√

  7. 離群點可以是合法的數(shù)據(jù)對象或者值败潦。
    答案:√

  8. Hadoop 是 Java 開發(fā)的,所以 MapReduce 只支持 Java 語言編寫准脂。
    答案:×

題50.png

距離.png
  1. 簡述大數(shù)據(jù)的4V特征劫扒?
    答案:
    4個V(即Volume、Variety狸膏、Value沟饥、Velocity)來概括大數(shù)據(jù)的特征。
    1)數(shù)據(jù)體量巨大(Volume)湾戳。大數(shù)據(jù)典型的容量已在TB級贤旷,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
    2)數(shù)據(jù)類型繁多(Variety)砾脑。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)幼驶。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多韧衣,包括網(wǎng)絡(luò)日志盅藻、音頻购桑、視頻、圖片氏淑、地理位置信息等勃蜘,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
    3)價值密度低(Value)假残。價值密度的高低與數(shù)據(jù)總量的大小成反比缭贡。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
    4)處理速度快(Velocity)辉懒。從數(shù)據(jù)的生成到消耗匀归,時間窗口非常小,可用于生成決策的時間非常少耗帕。

  2. 下表中給出一組年薪數(shù)據(jù)穆端,其中X表示大學(xué)畢業(yè)生畢業(yè)后的工作的年數(shù),而Y表示對應(yīng)的年收入仿便,我們采用一元線性回歸表示年薪和工作年數(shù)之間的關(guān)系体啰,回歸系數(shù)采用最小二乘法求解,請求解出大學(xué)畢業(yè)生年薪與工作年數(shù)之間的線性回歸方程嗽仪,并用該方程預(yù)計出畢業(yè)10年的大學(xué)生的年薪為多少荒勇,給出計算過程?





  3. 決策樹分類算法ID3是用信息增益來做屬性選擇度量的闻坚,下表是一個關(guān)于在某種天氣條件下打網(wǎng)球的例子沽翔,請用信息增益計算方法求出屬性outlook的信息增益值。如果知道Gain(Temperature)=0.029窿凤,Gain(Humidity)=0.151仅偎,Gain(Wind)=0.048,應(yīng)該用哪個屬性做決策樹的根節(jié)點雳殊。這里橘沥,Outlook---天氣,Overcast---陰天夯秃,Humidity---濕度


    題53.png

    答案:

  • 數(shù)據(jù)集中包含14個樣本座咆,其中8個正樣本(yes),6個負(fù)樣本(no)仓洼。則這些元組的期望信息(即熵)為:
    Info(D)=-8/14log2(8/14) -6/14log2(6/14)= 0.9852
  • 現(xiàn)在觀察每個屬性的期望信息需求介陶。
    在屬性O(shè)utlook中,對于sunny色建,正樣本數(shù)為2哺呜,負(fù)樣本數(shù)為3;
    對于屬性overcast镀岛,正樣本數(shù)為4弦牡,負(fù)樣本數(shù)為0友驮;
    對于屬性rain,正樣本數(shù)為3驾锰,負(fù)樣本數(shù)為2卸留。
    按照Outlook劃分樣本得到的期望信息為:
    5/14 * ( -2/5log22/5 –3/5log23/5) + 4/14 * ( -3/4log23/4-1/4log21/4) + 5/14 * ( -3/5log23/5 –2/5log22/5)=0.3467+0.2318+0.3467=0.9252
    Gain(outlook)=0.9852-0.9252=0.06
  • 比較其它屬性的信息增益值,最大的是屬性Humidity椭豫,應(yīng)以它為根節(jié)點耻瑟。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市赏酥,隨后出現(xiàn)的幾起案子喳整,更是在濱河造成了極大的恐慌,老刑警劉巖裸扶,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件框都,死亡現(xiàn)場離奇詭異,居然都是意外死亡呵晨,警方通過查閱死者的電腦和手機(jī)魏保,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來摸屠,“玉大人谓罗,你說我怎么就攤上這事〖径” “怎么了檩咱?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長胯舷。 經(jīng)常有香客問我刻蚯,道長,這世上最難降的妖魔是什么需纳? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任芦倒,我火速辦了婚禮,結(jié)果婚禮上不翩,老公的妹妹穿的比我還像新娘。我一直安慰自己麻裳,他們只是感情好口蝠,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著津坑,像睡著了一般妙蔗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上疆瑰,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天眉反,我揣著相機(jī)與錄音昙啄,去河邊找鬼。 笑死寸五,一個胖子當(dāng)著我的面吹牛梳凛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播梳杏,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼韧拒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了十性?” 一聲冷哼從身側(cè)響起叛溢,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎劲适,沒想到半個月后楷掉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡霞势,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年烹植,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片支示。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡刊橘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出颂鸿,到底是詐尸還是另有隱情促绵,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布嘴纺,位于F島的核電站败晴,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏栽渴。R本人自食惡果不足惜尖坤,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望闲擦。 院中可真熱鬧慢味,春花似錦、人聲如沸墅冷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽寞忿。三九已至驰唬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背叫编。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工辖佣, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人搓逾。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓卷谈,卻偏偏與公主長得像,于是被迫代替她去往敵國和親恃逻。 傳聞我的和親對象是個殘疾皇子雏搂,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 單選題 1. 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布寇损,這種屬于數(shù)據(jù)挖掘的哪類問題凸郑?(A) A...
    山的那邊是什么_閱讀 33,559評論 2 59
  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學(xué)習(xí)”算法中研究最多、應(yīng)用最廣的算法矛市,它試圖將數(shù)...
    閃電隨筆閱讀 5,045評論 1 24
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理芙沥,服務(wù)發(fā)現(xiàn),斷路器浊吏,智...
    卡卡羅2017閱讀 134,666評論 18 139
  • 概述及標(biāo)簽體系搭建 1 概述 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長而昨,“信息過載”問題愈來愈嚴(yán)重,愈發(fā)帶來很大...
    JinkeyAI閱讀 22,799評論 10 241
  • 現(xiàn)在標(biāo)題黨的人越來越多,寫的文章也大多是批評教育的內(nèi)容墩衙∥竦眨可是這類文章叫我看,看啥漆改。筆者自己本人都沒修身心铃,還想見人去...
    沐府墓主閱讀 304評論 0 0