01.什么是大數(shù)據(jù)距误?
數(shù)據(jù)是對(duì)客觀事實(shí)進(jìn)行記錄的一種符號(hào),可以是數(shù)字扁位、文字准潭,也可以是圖片、音頻域仇、視頻刑然。大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件進(jìn)行捕捉、管理和數(shù)據(jù)的數(shù)據(jù)集合暇务。
大數(shù)據(jù)具有"5V"特點(diǎn)泼掠,即數(shù)據(jù)量大、數(shù)據(jù)多樣性垦细、價(jià)值密度低择镇、增長(zhǎng)速度快、數(shù)據(jù)質(zhì)量低括改。
大數(shù)據(jù)時(shí)代強(qiáng)調(diào)數(shù)據(jù)的全部腻豌,而不是局部的樣本數(shù)據(jù)。由于大數(shù)據(jù)的價(jià)值密度低嘱能,我們要接受這種模糊和不精確性吝梅。通過對(duì)數(shù)據(jù)的研究,發(fā)現(xiàn)以前不曾發(fā)現(xiàn)的聯(lián)系焰檩,而不是像小數(shù)據(jù)時(shí)代憔涉,先通過假設(shè)订框,然后再用數(shù)據(jù)來驗(yàn)證析苫。也就是說,在大數(shù)據(jù)時(shí)代,對(duì)相關(guān)性的重視程度要強(qiáng)于因果性衩侥。
02.什么是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?
結(jié)構(gòu)化數(shù)據(jù)是適合用二維表格展現(xiàn)的數(shù)據(jù)国旷。每一行是一條記錄,每一列是不同的字段茫死。
以電商網(wǎng)站為例跪但,用戶信息就可以用結(jié)構(gòu)化數(shù)據(jù)來存儲(chǔ)。每位用戶就是一條記錄峦萎,而每位用戶又有姓名屡久、性別、地址爱榔、手機(jī)被环、郵箱等字段,這樣就形成了一個(gè)二維表格详幽。
非結(jié)構(gòu)化數(shù)據(jù)不適合用二維表格來展現(xiàn)筛欢,比如文檔、圖片唇聘、音頻版姑、視頻等。非結(jié)構(gòu)化數(shù)據(jù)的格式多樣迟郎,難以標(biāo)準(zhǔn)化和理解剥险,因此在存儲(chǔ)、檢索宪肖、利用上都需要更加有效的方法和技術(shù)炒嘲。
03.什么是數(shù)據(jù)庫?
數(shù)據(jù)庫從字面意思來看就是存儲(chǔ)數(shù)據(jù)的地方匈庭,但數(shù)據(jù)的存儲(chǔ)不是雜亂無章的夫凸,而是按照一定的規(guī)則來存儲(chǔ)的,具有可共享和便于管理的特點(diǎn)阱持。數(shù)據(jù)庫被視為電子化的文件柜夭拌。用戶可以對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行增、刪衷咽、改鸽扁、查等操作。
數(shù)據(jù)庫可分為關(guān)系型數(shù)據(jù)庫镶骗、非關(guān)系型數(shù)據(jù)庫桶现、數(shù)據(jù)倉庫等類型。
04.什么是關(guān)系型數(shù)據(jù)庫鼎姊?
關(guān)系型數(shù)據(jù)庫是指使用關(guān)系模型來組織數(shù)據(jù)的數(shù)據(jù)庫骡和。關(guān)系模型可以簡(jiǎn)單理解為二維表格模型相赁,以行和列的形式存儲(chǔ)數(shù)據(jù),因此適合存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)慰于。關(guān)系型數(shù)據(jù)庫就是由多個(gè)二維表格及其之間的關(guān)系組成的數(shù)據(jù)庫钮科。
常見的關(guān)系型數(shù)據(jù)庫有MySQL、SQL Server婆赠、PostgreSQL绵脯、Oracle等。
以電商網(wǎng)站為例休里,除了用戶信息之外蛆挫,還要記錄產(chǎn)品信息和訂單信息。為簡(jiǎn)化起見妙黍,每個(gè)訂單只包含一種產(chǎn)品璃吧。產(chǎn)品包括名稱、價(jià)格废境、圖片畜挨、介紹等字段,訂單包括所屬用戶噩凹、相關(guān)產(chǎn)品巴元、訂購(gòu)數(shù)量、訂單價(jià)格驮宴、下單時(shí)間等字段逮刨。一個(gè)用戶擁有一個(gè)或多個(gè)訂單,而一個(gè)產(chǎn)品也會(huì)屬于一個(gè)或多個(gè)訂單堵泽,這樣就建立了用戶修己、訂單和產(chǎn)品之間的關(guān)系。
05.什么是非關(guān)系型數(shù)據(jù)庫迎罗?
相對(duì)關(guān)系型數(shù)據(jù)庫而言睬愤,非關(guān)系型數(shù)據(jù)庫拋棄了固定的二維表格結(jié)構(gòu),存儲(chǔ)機(jī)制靈活纹安,比如鍵值對(duì)尤辱、文檔、圖形等格式都可以進(jìn)行存儲(chǔ)厢岂。
常見的非關(guān)系型數(shù)據(jù)庫有Redis光督、MongoDB、Cassandra等塔粒。
性能是非關(guān)系型數(shù)據(jù)庫最大的優(yōu)勢(shì)结借。由于關(guān)系型數(shù)據(jù)庫中的關(guān)系模型會(huì)占用掉90%的硬件資源及計(jì)算時(shí)間,對(duì)于有大量不需要關(guān)系功能的數(shù)據(jù)處理卒茬,非關(guān)系型數(shù)據(jù)庫的性能是非常高的船老。
另一方面咖熟,正是由于缺少數(shù)據(jù)表之間的關(guān)系,非關(guān)系型數(shù)據(jù)庫很難在多個(gè)表之間做非常復(fù)雜的數(shù)據(jù)查詢努隙。
06.什么是時(shí)序數(shù)據(jù)庫?
時(shí)序數(shù)據(jù)庫是一類特殊的非關(guān)系型數(shù)據(jù)庫辜昵,全稱是時(shí)間序列數(shù)據(jù)庫荸镊。經(jīng)研究發(fā)現(xiàn),機(jī)器設(shè)備堪置、傳感器躬存、系統(tǒng)日志等產(chǎn)生的數(shù)據(jù)有如下明顯的特征:
數(shù)據(jù)是時(shí)序的,即按照一定時(shí)間順序生成舀锨;
數(shù)據(jù)極少有更新或刪除操作岭洲;
數(shù)據(jù)產(chǎn)生頻率快、數(shù)據(jù)信息量大坎匿;
數(shù)據(jù)往往帶有位置信息盾剩。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或非關(guān)系型數(shù)據(jù)庫對(duì)于這類數(shù)據(jù),在性能提升上極為有限替蔬,只能依靠集群技術(shù)告私,投入更多的計(jì)算資源和存儲(chǔ)資源來處理,造成企業(yè)運(yùn)營(yíng)成本急劇上升承桥。而時(shí)序數(shù)據(jù)庫可以有效地處理龐大的數(shù)據(jù)驻粟,通過創(chuàng)新的列式存儲(chǔ)和先進(jìn)的壓縮算法,使用的計(jì)算資源不到傳統(tǒng)方案的1/5凶异,存儲(chǔ)空間不到通用數(shù)據(jù)庫的1/10蜀撑。
常見的時(shí)序數(shù)據(jù)庫有InfluxDB等。
07.什么是分布式存儲(chǔ)剩彬?
分布式存儲(chǔ)是相對(duì)于集中式存儲(chǔ)而言的酷麦。分布式存儲(chǔ)是由標(biāo)準(zhǔn)服務(wù)器(硬件)和分布式文件系統(tǒng)(軟件)組成的,可擴(kuò)展至千臺(tái)硬件節(jié)點(diǎn)喉恋,支持塊存儲(chǔ)贴铜、對(duì)象存儲(chǔ)、文件存儲(chǔ)等多種類型統(tǒng)一管理瀑晒。
常見的分布式文件系統(tǒng)有HDFS绍坝、Ceph、GFS苔悦、GPFS轩褐、Swift等。
舉個(gè)通俗易懂的例子玖详,如果把存儲(chǔ)比喻成車廂把介,數(shù)據(jù)比喻成貨物勤讽。集中式存儲(chǔ)方案下,如果要想拉更多的貨物拗踢,只能更換更大的車廂脚牍。而分布式存儲(chǔ)方案,直接增加車廂就可以了巢墅。有了分布式存儲(chǔ)技術(shù)诸狭,存儲(chǔ)EB級(jí)別(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量數(shù)據(jù)庫都不成問題。
08.什么是數(shù)據(jù)集成君纫?
由于開發(fā)部門或開發(fā)時(shí)間的不同驯遇,企業(yè)中往往有多個(gè)異構(gòu)的、運(yùn)行在不同的軟硬件平臺(tái)上的數(shù)據(jù)庫蓄髓,這些數(shù)據(jù)庫彼此獨(dú)立叉庐、相互封閉,使得數(shù)據(jù)難以在系統(tǒng)之間交流和共享会喝,從而形成了"信息孤島"陡叠。隨著信息化應(yīng)用的不斷深入,企業(yè)內(nèi)部之間肢执、企業(yè)與外部的信息交互的需求日益強(qiáng)烈匾竿,急切需要對(duì)已有的數(shù)據(jù)進(jìn)行整合,打通"信息孤島"蔚万,這就是數(shù)據(jù)集成的意義岭妖。
數(shù)據(jù)集成是把不同來源、不同種類反璃、不同格式的數(shù)據(jù)在物理上或邏輯上進(jìn)行集中昵慌,為企業(yè)提供全面的數(shù)據(jù)共享。數(shù)據(jù)集成主要解決的問題是各個(gè)數(shù)據(jù)源的異構(gòu)性淮蜈,包括數(shù)據(jù)庫的異構(gòu)性斋攀、通信協(xié)議的異構(gòu)性、數(shù)據(jù)類型的異構(gòu)性梧田、數(shù)據(jù)取值的異構(gòu)性等淳蔼。
09.什么是數(shù)據(jù)清洗?
數(shù)據(jù)清洗是一種清除錯(cuò)誤數(shù)據(jù)裁眯、去掉重復(fù)數(shù)據(jù)的技術(shù)鹉梨。數(shù)據(jù)經(jīng)過清洗之后,可以還保存到原來的數(shù)據(jù)庫中穿稳,也可以和數(shù)據(jù)集成聯(lián)系在一起存皂,最終保存到集成后的數(shù)據(jù)庫里。
舉幾個(gè)數(shù)據(jù)清洗的實(shí)例:
1.在用戶信息表中逢艘,規(guī)定有姓名旦袋、性別骤菠、地址、手機(jī)疤孕、郵箱五個(gè)字段是必填的商乎。而某些用戶缺少某些字段的值,因此需要補(bǔ)充這些數(shù)據(jù)祭阀。
2.英文的姓名之間規(guī)定要有空格鹉戚,而某些姓名沒有空格,比如"JohnSmith"柬讨,就需要修正這類錯(cuò)誤崩瓤。
3.有些數(shù)據(jù)表的金額單位是元袍啡,有些數(shù)據(jù)表的金額單位是萬元踩官,數(shù)據(jù)集成時(shí)就需要統(tǒng)一單位。
4.兩條用戶記錄完全重復(fù)境输,需要進(jìn)行去重處理蔗牡。
10.什么是ETL?
ETL是Extraction嗅剖、Transformation辩越、Loading三個(gè)單詞的首字母縮寫,指的是數(shù)據(jù)抽取信粮、轉(zhuǎn)換黔攒、加載的過程。
數(shù)據(jù)抽取是從不同的數(shù)據(jù)源中獲取我們需要的數(shù)據(jù)的過程强缘,和數(shù)據(jù)集成的概念類似督惰,這個(gè)過程往往會(huì)做一些數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要是進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換和一些業(yè)務(wù)規(guī)則的計(jì)算旅掂。數(shù)據(jù)加載通常是指在數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換完成后赏胚,寫入到目標(biāo)數(shù)據(jù)庫中去。
11.什么是數(shù)據(jù)分析商虐?
數(shù)據(jù)分析是基于商業(yè)需要觉阅,有目的的對(duì)數(shù)據(jù)進(jìn)行收集、整理秘车、加工典勇、分析,最終提煉有價(jià)值的信息的過程叮趴。
數(shù)據(jù)分析的四個(gè)步驟:
需求分析痴柔、明確目標(biāo);
數(shù)據(jù)收集疫向、加工處理咳蔚;
數(shù)據(jù)挖掘豪嚎、數(shù)據(jù)展現(xiàn);
分析報(bào)告谈火、提煉價(jià)值侈询。
12.什么是數(shù)據(jù)埋點(diǎn)?
所謂數(shù)據(jù)埋點(diǎn)就是從應(yīng)用的特定流程中收集一些信息糯耍,跟蹤用戶使用的狀況扔字,用來提供運(yùn)營(yíng)的數(shù)據(jù)支撐,進(jìn)一步優(yōu)化產(chǎn)品温技。
常見的信息包括獨(dú)立訪客數(shù)(UV)革为、頁面瀏覽量(PV)、頁面停留時(shí)長(zhǎng)舵鳞、頁面跳出率震檩、交互元素的點(diǎn)擊事件等。
數(shù)據(jù)埋點(diǎn)通常有兩種方式:
第一種是研發(fā)團(tuán)隊(duì)在產(chǎn)品中注入代碼蜓堕,并搭建響應(yīng)的查詢平臺(tái)抛虏;
第二種是借助第三方數(shù)據(jù)埋點(diǎn)工具,如神策數(shù)據(jù)套才、百度統(tǒng)計(jì)等迂猴。
13.什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫 (Data Warehouse) 簡(jiǎn)稱DW背伴,存儲(chǔ)大量數(shù)據(jù)的集成中心沸毁。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Decision-Support)傻寂。它為企業(yè)提供一定的BI(商業(yè)智能)能力息尺,指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間崎逃、成本掷倔、質(zhì)量以及控制。
數(shù)據(jù)倉庫的輸入方是各種各樣的數(shù)據(jù)源个绍,最終的輸出用于企業(yè)的數(shù)據(jù)分析勒葱、數(shù)據(jù)挖掘、數(shù)據(jù)報(bào)表等方向巴柿。
14.什么是數(shù)據(jù)集市凛虽?
數(shù)據(jù)倉庫是面向整個(gè)企業(yè)的,而數(shù)據(jù)集市是面向部門的广恢,因此規(guī)模更小凯旋,由業(yè)務(wù)部門設(shè)計(jì)、開發(fā)、管理至非、維護(hù)钠署,可以理解為是數(shù)據(jù)庫的子集。
數(shù)據(jù)集市就像宜家樓上的家居展廳荒椭,正如其名字"集市"一樣谐鼎,是一個(gè)面向最終顧客的數(shù)據(jù)市場(chǎng)。在這里趣惠,數(shù)據(jù)(家具)以一種更加容易被顧客接受的方式組合在一起狸棍。顧客的需求是分場(chǎng)景的,比如客廳味悄、書房草戈、臥室、廚房等侍瑟,因此我們需要?jiǎng)?chuàng)建多個(gè)數(shù)據(jù)集市(展廳)唐片。
15.什么是數(shù)據(jù)湖?
數(shù)據(jù)湖至今仍然沒有一個(gè)特別標(biāo)準(zhǔn)的概念丢习,比較統(tǒng)一的是數(shù)據(jù)湖存儲(chǔ)的是未經(jīng)加工的原始數(shù)據(jù)牵触,包含結(jié)構(gòu)化和非結(jié)構(gòu)化的各類數(shù)據(jù)淮悼。數(shù)據(jù)湖就是一個(gè)存儲(chǔ)了企業(yè)所有原始數(shù)據(jù)的存儲(chǔ)咐低,對(duì)于這些原始數(shù)據(jù)的管理則更加復(fù)雜。
以宜家家居為例袜腥,數(shù)據(jù)湖的原始數(shù)據(jù)就相當(dāng)于拆散的零部件见擦,顧客可以根據(jù)實(shí)際需要挑選零部件后自行組裝。
16.什么是數(shù)據(jù)挖掘羹令?
數(shù)據(jù)挖掘就是從大量的實(shí)際應(yīng)用數(shù)據(jù)中鲤屡,提取隱藏在其中的有價(jià)值的信息的過程福侈。
一般而言,數(shù)據(jù)挖掘分為兩類:一類是監(jiān)督學(xué)習(xí)肪凛,另一類是無監(jiān)督學(xué)習(xí)堰汉。監(jiān)督學(xué)習(xí)是對(duì)目標(biāo)需求的概念進(jìn)行學(xué)習(xí)伟墙,通過建立模型來實(shí)現(xiàn)從觀察變量到目標(biāo)需求的有效解釋。無監(jiān)督學(xué)習(xí)沒有明確的標(biāo)識(shí)變量來表達(dá)目標(biāo)需求戳葵,主要任務(wù)是探索數(shù)據(jù)之間的內(nèi)在聯(lián)系和結(jié)構(gòu)。
數(shù)據(jù)挖掘融合了多學(xué)科領(lǐng)域的知識(shí),常用的算法有分類生蚁、聚類分析、關(guān)聯(lián)分析邦投、趨勢(shì)與演化分析绎秒、特征分析、異常分析等尼摹。
17.什么是數(shù)據(jù)可視化见芹?
數(shù)據(jù)可視化就是借助圖形化的手段,清晰有效地傳達(dá)與溝通信息蠢涝。
利用人類對(duì)形狀玄呛、顏色的敏感,有效地傳遞信息和二,幫助用戶從數(shù)據(jù)中發(fā)現(xiàn)關(guān)系徘铝、規(guī)律和趨勢(shì)。常用的數(shù)據(jù)可視化圖表有柱狀圖惯吕、條形圖惕它、餅圖、雷達(dá)圖废登、折線圖淹魄、堆積圖、散點(diǎn)圖等堡距。
18.什么是商業(yè)智能甲锡?
商業(yè)智能(BI,Business Intelligence)是對(duì)商業(yè)信息的搜集羽戒、管理和分析過程缤沦,目的是使企業(yè)決策者獲得洞察力,做出對(duì)企業(yè)更有利的決策易稠。
從技術(shù)層面上講缸废,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫驶社、聯(lián)機(jī)分析處理企量、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等技術(shù)的綜合應(yīng)用