今天繼續(xù)帶大家學(xué)習(xí)大數(shù)據(jù)球切。今天主要介紹大數(shù)據(jù)價(jià)值鏈的數(shù)據(jù)獲取部分谷誓。希望大家持續(xù)學(xué)習(xí),每天關(guān)注吨凑,我會(huì)連續(xù)更新文章捍歪,讓大家系統(tǒng)學(xué)習(xí)和認(rèn)識(shí)大數(shù)據(jù)。
階段II:數(shù)據(jù)獲取
在大數(shù)據(jù)價(jià)值鏈中,數(shù)據(jù)獲取階段的任務(wù)是以數(shù)字形式將信息聚合,以待存儲(chǔ)和分析處理鸵钝。數(shù)據(jù)獲取過(guò)程可分為三個(gè)步驟:數(shù)據(jù)采集糙臼、數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理,如圖所示。數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理沒(méi)有嚴(yán)格的次序,預(yù)處理可以在數(shù)據(jù)傳輸之前或之后恩商。
一变逃、 數(shù)據(jù)采集
數(shù)據(jù)采集是指從真實(shí)世界對(duì)象中獲得原始數(shù)據(jù)的過(guò)程。不準(zhǔn)確的數(shù)據(jù)采集將影響后續(xù)的數(shù)據(jù)處理并最終得到無(wú)效的結(jié)果怠堪。數(shù)據(jù)采集方法的選擇不但要依賴(lài)于數(shù)據(jù)源的物理性質(zhì),還要考慮數(shù)據(jù)分析的目標(biāo)揽乱。隨后將介紹3種常用的數(shù)據(jù)采集方法:傳感器、日志文件和web爬蟲(chóng)粟矿。
1.傳感器
傳感器常用于測(cè)量物理環(huán)境變量并將其轉(zhuǎn)化為可讀的數(shù)字信號(hào)以待處理凰棉。傳感器包括聲音、振動(dòng)陌粹、化學(xué)撒犀、電流、天氣掏秩、壓力或舞、溫度和距離等類(lèi)型。通過(guò)有線(xiàn)或無(wú)線(xiàn)網(wǎng)絡(luò),信息被傳送到數(shù)據(jù)采集點(diǎn)蒙幻。有線(xiàn)傳感器網(wǎng)絡(luò)通過(guò)網(wǎng)線(xiàn)收集傳感器的信息,這種方式適用于傳感器易于部署和管理的場(chǎng)景映凳。
另一方面,無(wú)線(xiàn)傳感器網(wǎng)絡(luò)利用無(wú)線(xiàn)網(wǎng)絡(luò)作為信息傳輸?shù)妮d體,適合于沒(méi)有能量或通信的基礎(chǔ)設(shè)施的場(chǎng)合。WSNs通常由大量微小傳感器節(jié)點(diǎn)構(gòu)成,微小傳感器由電池供電,被部署在應(yīng)用制定的地點(diǎn)收集感知數(shù)據(jù)杆煞。當(dāng)節(jié)點(diǎn)部署完成后,基站將發(fā)布網(wǎng)絡(luò)配置/管理或收集命令,來(lái)自不同節(jié)點(diǎn)的感知數(shù)據(jù)將被匯集并轉(zhuǎn)發(fā)到基站以待處理魏宽。
基于傳感器的數(shù)據(jù)采集系統(tǒng)被認(rèn)為是一個(gè)信息物理系統(tǒng)。實(shí)際上,在科學(xué)實(shí)驗(yàn)中許多用于收集實(shí)驗(yàn)數(shù)據(jù)的專(zhuān)用儀器(如磁分光計(jì)决乎、射電望遠(yuǎn)鏡等),可以看作特殊的傳感器队询。從這個(gè)角度,實(shí)驗(yàn)數(shù)據(jù)采集系統(tǒng)同樣是一個(gè)信息物理系統(tǒng)。
2.日志文件
日志是廣泛使用的數(shù)據(jù)采集方法之一,由數(shù)據(jù)源系統(tǒng)產(chǎn)生,以特殊的文件格式記錄系統(tǒng)的活動(dòng)构诚。幾乎所有在數(shù)字設(shè)備上運(yùn)行的應(yīng)用使用日志文件非常有用,例如web服務(wù)器通常要在訪(fǎng)問(wèn)日志文件中記錄網(wǎng)站用戶(hù)的點(diǎn)擊蚌斩、鍵盤(pán)輸入、訪(fǎng)問(wèn)行為以及其他屬性范嘱。有三種類(lèi)型的web服務(wù)器日志文件格式用于捕獲用戶(hù)在網(wǎng)站上的活動(dòng):通用日志文件格式(NCSA)送膳、擴(kuò)展日志文件格式(W3C)和IIS日志文件格式(Microsoft)员魏。所有日志文件格式都是ASCII文本格式。數(shù)據(jù)庫(kù)也可以用來(lái)替代文本文件存儲(chǔ)日志信息,以提高海量日志倉(cāng)庫(kù)的查詢(xún)效率叠聋。其他基于日志文件的數(shù)據(jù)采集包括金融應(yīng)用的股票記帳和網(wǎng)絡(luò)監(jiān)控的性能測(cè)量及流量管理撕阎。
和物理傳感器相比,日志文件可以看作是“軟件傳感器”,許多用戶(hù)實(shí)現(xiàn)的數(shù)據(jù)采集軟件屬于這類(lèi)。
3.Web爬蟲(chóng)
爬蟲(chóng)是指為搜索引擎下載并存儲(chǔ)網(wǎng)頁(yè)的程序碌补。爬蟲(chóng)順序地訪(fǎng)問(wèn)初始隊(duì)列中的一組URLs,并為所有URLs分配一個(gè)優(yōu)先級(jí)虏束。爬蟲(chóng)從隊(duì)列中獲得具有一定優(yōu)先級(jí)的URL,下載該網(wǎng)頁(yè),隨后解析網(wǎng)頁(yè)中包含的所有URLs并添加這些新的URLs到隊(duì)列中。這個(gè)過(guò)程一直重復(fù),直到爬蟲(chóng)程序停止為止厦章。Web爬蟲(chóng)是網(wǎng)站應(yīng)用如搜索引擎和web緩存的主要數(shù)據(jù)采集方式镇匀。數(shù)據(jù)采集過(guò)程由選擇策略、重訪(fǎng)策略袜啃、禮貌策略以及并行策略決定汗侵。選擇策略決定哪個(gè)網(wǎng)頁(yè)將被訪(fǎng)問(wèn);重訪(fǎng)策略決定何時(shí)檢查網(wǎng)頁(yè)是否更新;禮貌策略防止過(guò)度訪(fǎng)問(wèn)網(wǎng)站;并行策略則用于協(xié)調(diào)分布的爬蟲(chóng)程序。傳統(tǒng)的web爬蟲(chóng)應(yīng)用已較為成熟,提出了不少有效的方案群发。隨著更豐富更先進(jìn)的web應(yīng)用的出現(xiàn),一些新的爬蟲(chóng)機(jī)制已被用于爬取富互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)晰韵。除了上述方法,還有許多和領(lǐng)域相關(guān)的數(shù)據(jù)采集方法和系統(tǒng)。
根據(jù)數(shù)據(jù)采集方式的不同,數(shù)據(jù)采集方法又可以大致分為以下兩類(lèi):
?基于拉(pull-based)的方法,數(shù)據(jù)由集中式或分布式的代理主動(dòng)收集也物。
?基于推(push-based)的方法,數(shù)據(jù)由源或第三方推向數(shù)據(jù)匯聚點(diǎn)宫屠。
對(duì)上述三種數(shù)據(jù)采集方法進(jìn)行了比較,日志文件是最簡(jiǎn)單的數(shù)據(jù)采集方法,但是只能收集相對(duì)一小部分結(jié)構(gòu)化數(shù)據(jù);web爬蟲(chóng)是最靈活的數(shù)據(jù)采集方法,可以獲得巨量的結(jié)構(gòu)復(fù)雜的數(shù)據(jù)。
二滑蚯、數(shù)據(jù)傳輸
原始數(shù)據(jù)采集后必須將其傳送到數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施如數(shù)據(jù)中心等待進(jìn)一步處理浪蹂。數(shù)據(jù)傳輸過(guò)程可以分為兩個(gè)階段,IP骨干網(wǎng)傳輸和數(shù)據(jù)中心傳輸,如圖所示。
1. IP骨干網(wǎng)傳輸
IP骨干網(wǎng)提供高容量主干線(xiàn)路將大數(shù)據(jù)從數(shù)據(jù)源傳遞到數(shù)據(jù)中心告材。傳輸速率和容量取決于物理媒體和鏈路管理方法坤次。
?物理媒體:通常由許多光纜合并在一起增加容量,并需要存在多條路徑已確保路徑失效時(shí)能進(jìn)行重路由。
?鏈路管理:決定信號(hào)如何在物理媒體上傳輸斥赋。過(guò)去20年間IPoverWDM技術(shù)得到了深入地研究缰猴。波分復(fù)用技術(shù)(WDM)是在單根光纖上復(fù)用多個(gè)不同波長(zhǎng)的光載波信號(hào)。為了解決電信號(hào)帶寬的瓶頸問(wèn)題,正交頻分復(fù)用OFDM被認(rèn)為是未來(lái)的高速光傳輸技術(shù)的候選者疤剑。OFDM允許單個(gè)子載波的頻譜重疊,能夠構(gòu)建具有更靈活的數(shù)據(jù)率滑绒、資源有效使用的光網(wǎng)絡(luò)。
目前IP骨干網(wǎng)部署了每信道40Gbps帶寬的光傳輸系統(tǒng),100Gbps的接口也已經(jīng)商用隘膘。不久的將來(lái)Tbps級(jí)別的傳輸也將實(shí)現(xiàn)疑故。
由于在現(xiàn)有的互聯(lián)網(wǎng)骨干網(wǎng)中增強(qiáng)網(wǎng)絡(luò)協(xié)議功能較為困難,必須遵循現(xiàn)有的互聯(lián)網(wǎng)協(xié)議傳輸大數(shù)據(jù)。然而,對(duì)于區(qū)域或私有IP骨干網(wǎng),對(duì)于特定的應(yīng)用,一些專(zhuān)用的傳輸方法能夠獲得更好的性能弯菊。
2. 數(shù)據(jù)中心傳輸
數(shù)據(jù)傳遞到數(shù)據(jù)中心后,將在數(shù)據(jù)中心內(nèi)部進(jìn)行存儲(chǔ)位置的調(diào)整和其他處理,這個(gè)過(guò)程稱(chēng)為數(shù)據(jù)中心傳輸,涉及到數(shù)據(jù)中心體系架構(gòu)和傳輸協(xié)議纵势。
?數(shù)據(jù)中心體系架構(gòu):
數(shù)據(jù)中心由多個(gè)裝備了若干服務(wù)器的機(jī)架構(gòu)成,服務(wù)器通過(guò)數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)連接。許多數(shù)據(jù)中心基于權(quán)威的2層或3層fat-tree結(jié)構(gòu)的商用交換機(jī)構(gòu)建。一些其他的拓?fù)湟灿糜跇?gòu)建更加高效的數(shù)據(jù)中心網(wǎng)絡(luò)钦铁。由于電子交換機(jī)的固有缺陷,在增加通信帶寬的同時(shí)減少能量消耗非常困難软舌。數(shù)據(jù)中心網(wǎng)絡(luò)中的光互聯(lián)技術(shù)能夠提供高吞吐量、低延遲和減少能量消耗,被認(rèn)為是有前途的解決方案牛曹。目前,光技術(shù)在數(shù)據(jù)中心僅用于點(diǎn)對(duì)點(diǎn)鏈路,這些鏈路基于低成本的多模光纖并連接交換機(jī),帶寬只能達(dá)到10Gbps佛点。數(shù)據(jù)中心的光互聯(lián)(交換機(jī)以光的形式交換)[68]能夠提供Tbps級(jí)別的帶寬,并能提高能量效率。許多光互聯(lián)機(jī)制已被應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò)躏仇。一些方案建議增加光電路升級(jí)現(xiàn)有數(shù)據(jù)中心網(wǎng)絡(luò),而另一些方案則認(rèn)為需完全替換現(xiàn)有交換機(jī)恋脚。
?傳輸協(xié)議:
TCP和UDP是數(shù)據(jù)傳輸最重要的兩種協(xié)議,但是它們的性能在傳輸大量的數(shù)據(jù)時(shí)并不令人滿(mǎn)意。許多研究致力于提高這兩種協(xié)議的性能焰手。一些增強(qiáng)TCP功能的方法目標(biāo)是提高鏈路吞吐率并對(duì)長(zhǎng)短不一的混合TCP流提供可預(yù)測(cè)的小延遲。例如,DCTCP利用顯示擁塞通知對(duì)端主機(jī)提供多比特反饋;Vamanan等提出了用于數(shù)據(jù)中心網(wǎng)絡(luò)的deadline感知的TCP協(xié)議,用于分配帶寬,確保在軟實(shí)時(shí)限制下完成網(wǎng)絡(luò)傳輸怀喉。UDP協(xié)議適用于傳輸大量數(shù)據(jù),但是缺乏擁塞控制书妻。因此高帶寬的UDP應(yīng)用必須自己實(shí)現(xiàn)擁塞控制機(jī)制,這是一個(gè)困難的任務(wù)并會(huì)導(dǎo)致風(fēng)險(xiǎn)。Kholer等在類(lèi)UDP的基礎(chǔ)協(xié)議上設(shè)計(jì)添加了一個(gè)可擁塞控制的不可靠傳輸協(xié)議,該協(xié)議類(lèi)似于TCP但是沒(méi)有可靠傳輸和累積確認(rèn)機(jī)制躬拢。
三躲履、數(shù)據(jù)預(yù)處理
由于數(shù)據(jù)源的多樣性,數(shù)據(jù)集由于干擾、冗余和一致性因素的影響具有不同的質(zhì)量聊闯。從需求的角度,一些數(shù)據(jù)分析工具和應(yīng)用對(duì)數(shù)據(jù)質(zhì)量有著嚴(yán)格的要求工猜。因此在大數(shù)據(jù)系統(tǒng)中需要數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)的質(zhì)量。討論三種主要的數(shù)據(jù)預(yù)處理技術(shù)菱蔬。
1. 數(shù)據(jù)集成
數(shù)據(jù)集成技術(shù)在邏輯上和物理上把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集中,為用戶(hù)提供一個(gè)統(tǒng)一的視圖篷帅。數(shù)據(jù)集成在傳統(tǒng)的數(shù)據(jù)庫(kù)研究中是一個(gè)成熟的研究領(lǐng)域,如數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)聯(lián)合方法。數(shù)據(jù)倉(cāng)庫(kù)又稱(chēng)為ETL,由3個(gè)步驟構(gòu)成:提取拴泌、變換和裝載魏身。
?提取:連接源系統(tǒng)并選擇和收集必要的數(shù)據(jù)用于隨后的分析處理。
?變換:通過(guò)一系列的規(guī)則將提取的數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)格式蚪腐。
?裝載:將提取并變換后的數(shù)據(jù)導(dǎo)入目標(biāo)存儲(chǔ)基礎(chǔ)設(shè)施箭昵。
數(shù)據(jù)聯(lián)合則創(chuàng)建一個(gè)虛擬的數(shù)據(jù)庫(kù),從分離的數(shù)據(jù)源查詢(xún)并合并數(shù)據(jù)。虛擬數(shù)據(jù)庫(kù)并不包含數(shù)據(jù)本身,而是存儲(chǔ)了真實(shí)數(shù)據(jù)及其存儲(chǔ)位置的信息或元數(shù)據(jù)回季。
然而,這兩種方法并不能滿(mǎn)足流式和搜索應(yīng)用對(duì)高性能的需求,因此這些應(yīng)用的數(shù)據(jù)高度動(dòng)態(tài),并且需要實(shí)時(shí)處理家制。一般地,數(shù)據(jù)集成技術(shù)最好能與流處理引擎或搜索引擎集成在一起。
2.數(shù)據(jù)清洗
數(shù)據(jù)清洗是指在數(shù)據(jù)集中發(fā)現(xiàn)不準(zhǔn)確泡一、不完整或不合理數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行修補(bǔ)或移除以提高數(shù)據(jù)質(zhì)量的過(guò)程颤殴。一個(gè)通用的數(shù)據(jù)清洗框架由5個(gè)步驟構(gòu)成:定義錯(cuò)誤類(lèi)型,搜索并標(biāo)識(shí)錯(cuò)誤實(shí)例,改正錯(cuò)誤,文檔記錄錯(cuò)誤實(shí)例和錯(cuò)誤類(lèi)型,修改數(shù)據(jù)錄入程序以減少未來(lái)的錯(cuò)誤。
此外,格式檢查瘾杭、完整性檢查诅病、合理性檢查和極限檢查也在數(shù)據(jù)清洗過(guò)程中完成。數(shù)據(jù)清洗對(duì)保持?jǐn)?shù)據(jù)的一致和更新起著重要的作用,因此被用于如銀行、保險(xiǎn)贤笆、零售蝇棉、電信和交通的多個(gè)行業(yè)。在電子商務(wù)領(lǐng)域,盡管大多數(shù)數(shù)據(jù)通過(guò)電子方式收集,但仍存在數(shù)據(jù)質(zhì)量問(wèn)題芥永。影響數(shù)據(jù)質(zhì)量的因素包括軟件錯(cuò)誤篡殷、定制錯(cuò)誤和系統(tǒng)配置錯(cuò)誤等。
數(shù)據(jù)清洗對(duì)隨后的數(shù)據(jù)分析非常重要,因?yàn)樗芴岣邤?shù)據(jù)分析的準(zhǔn)確性埋涧。但是數(shù)據(jù)清洗依賴(lài)復(fù)雜的關(guān)系模型,會(huì)帶來(lái)額外的計(jì)算和延遲開(kāi)銷(xiāo),必須在數(shù)據(jù)清洗模型的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進(jìn)行平衡板辽。
3.冗余消除
數(shù)據(jù)冗余是指數(shù)據(jù)的重復(fù)或過(guò)剩,這是許多數(shù)據(jù)集的常見(jiàn)問(wèn)題。數(shù)據(jù)冗余無(wú)疑會(huì)增加傳輸開(kāi)銷(xiāo),浪費(fèi)存儲(chǔ)空間,導(dǎo)致數(shù)據(jù)不一致,降低可靠性棘催。因此許多研究提出了數(shù)據(jù)冗余減少機(jī)制,例如冗余檢測(cè)和數(shù)據(jù)壓縮劲弦。這些方法能夠用于不同的數(shù)據(jù)集和應(yīng)用環(huán)境,提升性能,但同時(shí)也帶來(lái)一定風(fēng)險(xiǎn)。
由廣泛部署的攝像頭收集的圖像和視頻數(shù)據(jù)存在大量的數(shù)據(jù)冗余醇坝。在視頻監(jiān)控?cái)?shù)據(jù)中,大量的圖像和視頻數(shù)據(jù)存在著時(shí)間邑跪、空間和統(tǒng)計(jì)上的冗余。視頻壓縮技術(shù)被用于減少視頻數(shù)據(jù)的冗余,許多重要的標(biāo)準(zhǔn)(如MPEG-2,MPEG-4,H呼猪,263,H画畅,264/AVC)已被應(yīng)用以減少存儲(chǔ)和傳輸?shù)呢?fù)擔(dān)。對(duì)于普遍的數(shù)據(jù)傳輸和存儲(chǔ),數(shù)據(jù)去重技術(shù)是專(zhuān)用的數(shù)據(jù)壓縮技術(shù),用于消除重復(fù)數(shù)據(jù)的副本宋距。在存儲(chǔ)去重過(guò)程中,一個(gè)唯一的數(shù)據(jù)塊或數(shù)據(jù)段將分配一個(gè)標(biāo)識(shí)并存儲(chǔ),該標(biāo)識(shí)會(huì)加入一個(gè)標(biāo)識(shí)列表轴踱。當(dāng)去重過(guò)程繼續(xù)時(shí),一個(gè)標(biāo)識(shí)已存在于標(biāo)識(shí)列表中的新數(shù)據(jù)塊將被認(rèn)為是冗余的塊。該數(shù)據(jù)塊將被一個(gè)指向已存儲(chǔ)數(shù)據(jù)塊指針的引用替代谚赎。
去重技術(shù)能夠顯著地減少存儲(chǔ)空間,對(duì)大數(shù)據(jù)存儲(chǔ)系統(tǒng)具有非常重要的作用淫僻。除了前面提到的數(shù)據(jù)預(yù)處理方法,還有一些對(duì)特定數(shù)據(jù)對(duì)象進(jìn)行預(yù)處理的技術(shù),如特征提取技術(shù),在多媒體搜索和DNS分析中起著重要的作用。這些數(shù)據(jù)對(duì)象通常具有高維特征矢量沸版。
數(shù)據(jù)變形技術(shù)則通常用于處理分布式數(shù)據(jù)源產(chǎn)生的異構(gòu)數(shù)據(jù),對(duì)處理商業(yè)數(shù)據(jù)非常有用嘁傀。然而,沒(méi)有一個(gè)統(tǒng)一的數(shù)據(jù)預(yù)處理過(guò)程和單一的技術(shù)能夠用于多樣化的數(shù)據(jù)集,必須考慮數(shù)據(jù)集的特性、需要解決的問(wèn)題视粮、性能需求和其他因素選擇合適的數(shù)據(jù)預(yù)處理方案细办。
今天介紹了大數(shù)據(jù)價(jià)值鏈的數(shù)據(jù)獲取部分,后面會(huì)繼續(xù)帶你認(rèn)識(shí)不一樣的大數(shù)據(jù)蕾殴。
如果您想長(zhǎng)期獲取科技信息的解讀笑撞,記得關(guān)注我,我會(huì)每天更新钓觉,謝謝茴肥。同時(shí)如果您有什么意見(jiàn)和建議,歡迎評(píng)論荡灾。