10個(gè)大數(shù)據(jù)面試入門級問題
由于大數(shù)據(jù)在IT是比較吃香的瓢剿,小編整理了一些關(guān)于大數(shù)據(jù)的面試題额划。
無論您是大數(shù)據(jù)領(lǐng)域的新手還是經(jīng)驗(yàn)豐富,都需要基礎(chǔ)知識疾党。因此音诫,讓我們來介紹一些常見的基本大數(shù)據(jù)面試問題以及破解大數(shù)據(jù)面試的答案。
1.您對“大數(shù)據(jù)”一詞有何了解雪位?
答: 大數(shù)據(jù)是與復(fù)雜和大型數(shù)據(jù)集相關(guān)的術(shù)語竭钝。關(guān)系數(shù)據(jù)庫無法處理大數(shù)據(jù),這就是使用特殊工具和方法對大量數(shù)據(jù)執(zhí)行操作的原因雹洗。大數(shù)據(jù)使公司能夠更好地了解其業(yè)務(wù)香罐,并幫助他們從定期收集的非結(jié)構(gòu)化和原始數(shù)據(jù)中獲取有意義的信息。大數(shù)據(jù)還允許公司采取數(shù)據(jù)支持的更好的業(yè)務(wù)決策时肿。
2.大數(shù)據(jù)的五個(gè)V是什么庇茫?
答:大數(shù)據(jù)的五個(gè)V如下:
Volume -Volume表示體積大,即以高速率增長的數(shù)據(jù)量螃成,即以PB為單位的數(shù)據(jù)量
Velocity -Velocity是數(shù)據(jù)增長的速度旦签。社交媒體在數(shù)據(jù)增長速度方面發(fā)揮著重要作用。
Variety -Variety是指不同的數(shù)據(jù)類型寸宏,即各種數(shù)據(jù)格式宁炫,如文本,音頻击吱,視頻等淋淀。
Veracity -Veracity是指可用數(shù)據(jù)的不確定性遥昧。由于大量數(shù)據(jù)帶來不完整性和不一致性覆醇,因此產(chǎn)生了準(zhǔn)確性朵纷。
Value -價(jià)值是指將數(shù)據(jù)轉(zhuǎn)化為價(jià)值。通過將訪問的大數(shù)據(jù)轉(zhuǎn)換為價(jià)值永脓,企業(yè)可以創(chuàng)造收入袍辞。
大數(shù)據(jù)的5V
注意: 這是大數(shù)據(jù)訪談中提出的基本和重要問題之一。如果您看到面試官有興趣了解更多信息常摧,您可以選擇詳細(xì)解釋五個(gè)V. 但是搅吁,如果您被問及“大數(shù)據(jù)”這一術(shù)語,甚至可以提及這些名稱落午。
3.告訴我們大數(shù)據(jù)和Hadoop如何相互關(guān)聯(lián)谎懦。
答: 大數(shù)據(jù)和Hadoop幾乎是同義詞。隨著大數(shù)據(jù)的興起溃斋,專門從事大數(shù)據(jù)操作的Hadoop框架也開始流行起來界拦。專業(yè)人員可以使用該框架來分析大數(shù)據(jù)并幫助企業(yè)做出決策。
注意: 這個(gè)問題通常在大數(shù)據(jù)訪談中提出梗劫。 可以進(jìn)一步去回答這個(gè)問題享甸,并試圖解釋的Hadoop的主要組成部分。
4.大數(shù)據(jù)分析如何有助于增加業(yè)務(wù)收入梳侨?
答:大數(shù)據(jù)分析對企業(yè)來說非常重要蛉威。它可以幫助企業(yè)將自己與眾不同并增加收入。通過預(yù)測分析走哺,大數(shù)據(jù)分析為企業(yè)提供定制的建議和建議蚯嫌。此外,大數(shù)據(jù)分析使企業(yè)能夠根據(jù)客戶需求和偏好推出新產(chǎn)品丙躏。這些因素使企業(yè)獲得更多收入齐帚,因此公司正在使用大數(shù)據(jù)分析。通過實(shí)施大數(shù)據(jù)分析彼哼,公司可能會(huì)收入大幅增加5-20%的收入对妄。一些使用大數(shù)據(jù)分析來增加收入的受歡迎公司是 - 沃爾瑪,LinkedIn敢朱,F(xiàn)acebook剪菱,Twitter,美國銀行等拴签。
5.解釋部署大數(shù)據(jù)解決方案時(shí)應(yīng)遵循的步驟孝常。
答:以下是部署大數(shù)據(jù)解決方案所遵循的三個(gè)步驟
Ⅰ、數(shù)據(jù)攝取
部署大數(shù)據(jù)解決方案的第一步是數(shù)據(jù)提取蚓哩,即從各種來源提取數(shù)據(jù)构灸。數(shù)據(jù)源可以是像Salesforce這樣的CRM,像SAP這樣的企業(yè)資源規(guī)劃系統(tǒng)岸梨,像MySQL這樣的RDBMS或任何其他日志文件喜颁,文檔稠氮,社交媒體源等。數(shù)據(jù)可以通過批處理作業(yè)或?qū)崟r(shí)流來提取半开。然后將提取的數(shù)據(jù)存儲(chǔ)在HDFS中隔披。
部署大數(shù)據(jù)解決方案的步驟
II、數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)攝取之后寂拆,下一步是存儲(chǔ)提取的數(shù)據(jù)奢米。數(shù)據(jù)存儲(chǔ)在HDFS或NoSQL數(shù)據(jù)庫(即HBase)中。HDFS存儲(chǔ)適用于順序訪問纠永,而HBase適用于隨機(jī)讀/寫訪問鬓长。
III、數(shù)據(jù)處理
部署大數(shù)據(jù)解決方案的最后一步是數(shù)據(jù)處理尝江。數(shù)據(jù)通過Spark痢士,MapReduce,Pig等處理框架之一進(jìn)行處理茂装。
6.定義HDFS和YARN的相應(yīng)組件
答: HDFS的兩個(gè)主要組成部分:
NameNode - 這是用于處理HDFS內(nèi)數(shù)據(jù)塊的元數(shù)據(jù)信息的主節(jié)點(diǎn)
DataNode / Slave節(jié)點(diǎn) - 這是作為從節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)的節(jié)點(diǎn)怠蹂,供NameNode處理和使用
除了提供客戶端請求之外,NameNode還執(zhí)行以下兩個(gè)角色之一:
CheckpointNode - 它在與NameNode不同的主機(jī)上運(yùn)行
BackupNode-它是一個(gè)只讀的NameNode少态,它包含不包括塊位置的文件系統(tǒng)元數(shù)據(jù)信息
YARN的兩個(gè)主要組成部分:
ResourceManager-該組件接收處理請求城侧,并根據(jù)處理需要相應(yīng)地分配給各個(gè)NodeManager。
NodeManager-它在每個(gè)單個(gè)數(shù)據(jù)節(jié)點(diǎn)上執(zhí)行任務(wù)
7.為什么Hadoop可用于大數(shù)據(jù)分析彼妻?
答: 由于數(shù)據(jù)分析已成為業(yè)務(wù)的關(guān)鍵參數(shù)之一嫌佑,因此,企業(yè)正在處理大量結(jié)構(gòu)化侨歉,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)屋摇。在Hadoop主要支持其功能的情況下,分析非結(jié)構(gòu)化數(shù)據(jù)非常困難
存儲(chǔ)
處理
數(shù)據(jù)采集
此外幽邓,Hadoop是開源的炮温,可在商用硬件上運(yùn)行。因此牵舵,它是企業(yè)的成本效益解決方案柒啤。
8.什么是fsck?
答: fsck代表文件系統(tǒng)檢查畸颅。它是HDFS使用的命令担巩。此命令用于檢查不一致性以及文件中是否存在任何問題。例如没炒,如果文件有任何丟失的塊涛癌,則通過此命令通知HDFS。
9. NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別是什么?
答: NAS(網(wǎng)絡(luò)附加存儲(chǔ))和HDFS之間的主要區(qū)別 -
HDFS在一組計(jì)算機(jī)上運(yùn)行拳话,??而NAS在單個(gè)計(jì)算機(jī)上運(yùn)行先匪。因此,數(shù)據(jù)冗余是HDFS中的常見問題假颇。相反,復(fù)制協(xié)議在NAS的情況下是不同的骨稿。因此笨鸡,數(shù)據(jù)冗余的可能性要小得多。
在HDFS的情況下坦冠,數(shù)據(jù)作為數(shù)據(jù)塊存儲(chǔ)在本地驅(qū)動(dòng)器中形耗。在NAS的情況下,它存儲(chǔ)在專用硬件中辙浑。
10.格式化NameNode的命令是什么激涤?
答: $ hdfs namenode -format。
大數(shù)據(jù)面試資料
小編給大家整理一下關(guān)于大數(shù)據(jù)的相關(guān)的面試題判呕,希望大家能夠喜歡倦踢。
獲取方式:轉(zhuǎn)發(fā)文章并私信【學(xué)習(xí)】即可獲取哦~~~
下集預(yù)告:干貨|50個(gè)大數(shù)據(jù)面試問題及答案第二篇:10個(gè)大數(shù)據(jù)面試中級問題