什么是大數(shù)據(jù)?
大數(shù)據(jù)是不能用傳統(tǒng)的計(jì)算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個(gè)單一的技術(shù)或工具,而是涉及的業(yè)務(wù)和技術(shù)的許多領(lǐng)域季蚂。
在大數(shù)據(jù)會(huì)發(fā)生什么
大數(shù)據(jù)包括通過(guò)不同的設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)茫船。下面給出的是一些在數(shù)據(jù)的框架下的領(lǐng)域。
- 黑匣子數(shù)據(jù):這是直升機(jī)扭屁,飛機(jī)算谈,噴氣機(jī)的一個(gè)組成部分,它捕獲飛行機(jī)組的聲音料滥,麥克風(fēng)和耳機(jī)的錄音然眼,以及飛機(jī)的性能信息。
- 社會(huì)化媒體數(shù)據(jù):社會(huì)化媒體葵腹,如Facebook和Twitter保持信息發(fā)布的數(shù)百萬(wàn)世界各地的人的意見觀點(diǎn)高每。 證券交易所數(shù)據(jù):交易所數(shù)據(jù)保存有關(guān)的“買入”和“賣出”屿岂,客戶由不同的公司所占的份額決定的信息。
-電網(wǎng)數(shù)據(jù):電網(wǎng)數(shù)據(jù)保持相對(duì)于基站所消耗的特定節(jié)點(diǎn)的信息鲸匿。 - 交通運(yùn)輸數(shù)據(jù):交通數(shù)據(jù)包括車輛的型號(hào)爷怀,容量,距離和可用性带欢。
- 搜索引擎數(shù)據(jù):搜索引擎獲取大量來(lái)自不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)运授。
大數(shù)據(jù)包括體積龐大,高流速和可擴(kuò)展的各種數(shù)據(jù)乔煞。它的數(shù)據(jù)為三種類型吁朦。 - 結(jié)構(gòu)化數(shù)據(jù): 關(guān)系數(shù)據(jù)。
- 半結(jié)構(gòu)化數(shù)據(jù): XML數(shù)據(jù)渡贾。
- 非結(jié)構(gòu)化數(shù)據(jù): Word逗宜,PDF,文本剥啤,媒體日志锦溪。
大數(shù)據(jù)的好處
- 通過(guò)保留了社交網(wǎng)絡(luò)如Facebook的信息,市場(chǎng)營(yíng)銷機(jī)構(gòu)了解可以他們的活動(dòng)府怯,促銷等廣告媒介的響應(yīng)刻诊。
- 利用信息計(jì)劃生產(chǎn)在社會(huì)化媒體一樣喜好并讓消費(fèi)者對(duì)產(chǎn)品的認(rèn)知,產(chǎn)品企業(yè)和零售企業(yè)牺丙。
- 使用關(guān)于患者以前的病歷資料则涯,醫(yī)院提供更好的合快速服務(wù)。
大數(shù)據(jù)技術(shù)
大數(shù)據(jù)的技術(shù)是在提供更準(zhǔn)確的分析冲簿,這可能影響更多的具體決策導(dǎo)致更大的運(yùn)行效率粟判,降低成本,并減少了對(duì)業(yè)務(wù)的風(fēng)險(xiǎn)峦剔。
為了利用大數(shù)據(jù)的力量档礁,需要管理和處理實(shí)時(shí)結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù),可以保護(hù)隱私和安全的基礎(chǔ)設(shè)施吝沫。
目前在市場(chǎng)上的各種技術(shù)呻澜,從不同的供應(yīng)商,包括亞馬遜惨险、IBM羹幸,微軟等來(lái)處理大數(shù)據(jù)。盡管找到了處理大數(shù)據(jù)的技術(shù)辫愉,研究了以下兩類技術(shù):
操作大數(shù)據(jù)
這些包括像MongoDB系統(tǒng)栅受,提供業(yè)務(wù)實(shí)時(shí)的能力,這里是數(shù)據(jù)捕獲和存儲(chǔ)互動(dòng)工作。
NoSQL大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)充分利用已經(jīng)出現(xiàn)在過(guò)去的十年屏镊,而讓大量的計(jì)算依疼,以廉價(jià),高效的運(yùn)行新的云計(jì)算架構(gòu)的優(yōu)勢(shì)闸衫。這使得運(yùn)營(yíng)大數(shù)據(jù)工作負(fù)載更容易管理涛贯,更便宜,更快的實(shí)現(xiàn)蔚出。
一些NoSQL系統(tǒng)可以提供深入了解基于使用最少的編碼無(wú)需數(shù)據(jù)科學(xué)家和額外的基礎(chǔ)架構(gòu)的實(shí)時(shí)數(shù)據(jù)模式弟翘。
分析大數(shù)據(jù)
這些包括,如大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)系統(tǒng)和MapReduce提供用于回顧性和復(fù)雜的分析骄酗,可能觸及大部分或全部數(shù)據(jù)的分析能力的系統(tǒng)稀余。
MapReduce提供分析數(shù)據(jù)的基礎(chǔ)上,MapReduce可以按比例增加從單個(gè)服務(wù)器向成千上萬(wàn)的高端和低端機(jī)的互補(bǔ)SQL提供的功能趋翻,這是系統(tǒng)的一種新方法睛琳。
這兩個(gè)類技術(shù)是互補(bǔ)的,并經(jīng)常一起部署踏烙。
操作分析系統(tǒng)
操作 | 分析 | |
---|---|---|
等待時(shí)間 | 1ms-100ms | 1min-100min |
并發(fā) | 1000- 100,00 | 1-10 |
訪問(wèn)模式 | 寫入和讀取 | 讀取 |
查詢 | 選擇 | 非選擇性 |
數(shù)據(jù)范圍 | 操作 | 回溯 |
最終用戶 | 顧客 | 數(shù)據(jù)科學(xué)家 |
技術(shù) | NoSQL | MapReduce师骗,MPP數(shù)據(jù)庫(kù) |
大數(shù)據(jù)的挑戰(zhàn)
大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:
- 采集數(shù)據(jù)
- 策展
- 存儲(chǔ)
- 搜索
- 分享
- 分析
- 展示