初識大數(shù)據(jù)-1

一僵驰、 什么是大數(shù)據(jù)?
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取培漏、管理和處理的數(shù)據(jù)集合怀估。大數(shù)據(jù) = “海量數(shù)據(jù)”+“復雜類型的數(shù)據(jù)”狮鸭。
大數(shù)據(jù)作為互聯(lián)網(wǎng)技術(shù)發(fā)展到現(xiàn)階段最為前沿的分析技術(shù),其有著較傳統(tǒng)技術(shù)所沒有的顯著特點多搀,大數(shù)據(jù)最核心的價值就是在于對于海量數(shù)據(jù)進行存儲和分析歧蕉。相比起現(xiàn)有的其他技術(shù)而言,大數(shù)據(jù)的“廉價康铭、迅速惯退、優(yōu)化”這三方面的綜合成本是最為優(yōu)秀的。
大數(shù)據(jù)的特征(4V+1O) 業(yè)界將其歸納為4個“V”——
Volume(數(shù)據(jù)體量大):包括采集麻削、存儲和計算的量都非常大蒸痹。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)呛哟。
Variety(數(shù)據(jù)類型繁多):種類和來源多樣化叠荠。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)扫责,具體表現(xiàn)為網(wǎng)絡(luò)日志榛鼎、音頻、視頻鳖孤、圖片者娱、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求苏揣。
Velocity(處理速度快):數(shù)據(jù)增長速度快黄鳍,處理速度也快,時效性要求高平匈。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到框沟,個性化推薦算法盡可能要求實時完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征增炭。
Value(價值密度低):數(shù)量大忍燥,但是要提取其中有價值的數(shù)據(jù)。
數(shù)據(jù)是在線的(Online):數(shù)據(jù)是永遠在線的隙姿,是隨時能調(diào)用和計算的梅垄,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)最大的特征。現(xiàn)在我們所談到的大數(shù)據(jù)不僅僅是大输玷,更重要的是數(shù)據(jù)變的在線了队丝,這是互聯(lián)網(wǎng)高速發(fā)展背景下的特點靡馁。比如,對于打車工具炭玫,客戶的數(shù)據(jù)和出租司機數(shù)據(jù)都是實時在線的奈嘿,這樣的數(shù)據(jù)才有意義。如果是放在磁盤中而且是離線的吞加,這些數(shù)據(jù)遠遠不如在線的商業(yè)價值大。

二尽狠、 數(shù)據(jù) 結(jié)構(gòu)+非結(jié)構(gòu)
參考網(wǎng)站:http://www.aboutyun.com/thread-9468-1-1.html

數(shù)據(jù)分類 結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在[數(shù)據(jù)庫]里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù)) 在做一個信息系統(tǒng)設(shè)計時肯定會涉及到數(shù)據(jù)的存儲衔憨,一般我們都會將系統(tǒng)信息保存在某個指定的關(guān)系數(shù)據(jù)庫中。我們會將數(shù)據(jù)按業(yè)務(wù)分類袄膏,并設(shè)計相應(yīng)的表践图,然后將對應(yīng)的信息保存到相應(yīng)的表中。比如我們做一個業(yè)務(wù)系統(tǒng)沉馆,要保存員工基本信息:工號码党、姓名、性別斥黑、出生日期等等揖盘;我們就會建立一個對應(yīng)的staff表。 但不是系統(tǒng)中所有信息都可以這樣簡單的用一個表中的字段就能對應(yīng)的锌奴。 非結(jié)構(gòu)化數(shù)據(jù)(,包括所有格式的辦公文檔兽狭、文本、圖片鹿蜀、XML箕慧、HTML、各類報表茴恰、圖像和音頻/視頻信息等等) 像圖片颠焦、聲音、視頻等等往枣。這類信息我們通常無法直接知道他的內(nèi)容伐庭,數(shù)據(jù)庫也只能將它保存在一個BLOB字段中,對以后檢索非常麻煩婉商。一般的做法是似忧,建立一個包含三個字段的表(編號 number、內(nèi)容描述 varchar(1024)丈秩、內(nèi)容 blob)盯捌。引用通過編號,檢索通過內(nèi)容描述∧⒒啵現(xiàn)在還有很多非結(jié)構(gòu)化數(shù)據(jù)的處理工具饺著,市面上常見的內(nèi)容管理器就是其中的一種箫攀。 半結(jié)構(gòu)化數(shù)據(jù)(介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音幼衰、圖像文件等)之間的數(shù)據(jù)) 這樣的數(shù)據(jù)和上面兩種類別都不一樣靴跛,它是結(jié)構(gòu)化的數(shù)據(jù),但是結(jié)構(gòu)變化很大渡嚣。因為我們要了解數(shù)據(jù)的細節(jié)所以不能將數(shù)據(jù)簡單的組織成一個文件按照非結(jié)構(gòu)化數(shù)據(jù)處理梢睛,由于結(jié)構(gòu)變化很大也不能夠簡單的建立一個表和他對應(yīng)。本文主要討論針對半結(jié)構(gòu)化數(shù)據(jù)存儲常用的兩種方式识椰。 先舉一個半結(jié)構(gòu)化的數(shù)據(jù)的例子绝葡,比如存儲員工的簡歷。不像員工基本信息那樣一致每個員工的簡歷大不相同腹鹉。有的員工的簡歷很簡單藏畅,比如只包括教育情況;有的員工的簡歷卻很復雜功咒,比如包括工作情況愉阎、婚姻情況、出入境情況力奋、戶口遷移情況榜旦、黨籍情況、技術(shù)技能等等刊侯。還有可能有一些我們沒有預(yù)料的信息章办。通常我們要完整的保存這些信息并不是很容易的,因為我們不會希望系統(tǒng)中的表的結(jié)構(gòu)在系統(tǒng)的運行期間進行變更滨彻。

**三藕届、 數(shù)據(jù)單位 **
大數(shù)據(jù)的采集⊥ざ科學技術(shù)及互聯(lián)網(wǎng)的發(fā)展休偶,推動著大數(shù)據(jù)時代的來臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片辜羊,數(shù)據(jù)計量單位已從從Byte踏兜、KB、MB八秃、GB碱妆、TB發(fā)展到PB、EB昔驱、ZB疹尾、YB甚至BB、NB、DB來衡量纳本。
字節(jié) byte:8個二進制位為一個字節(jié)(B),最常用的單位
1KB (Kilobyte 千字節(jié))=1024B
1MB (Megabyte 兆字節(jié) 簡稱“兆”)=1024KB
1GB (Gigabyte 吉字節(jié) 又稱“千兆”)=1024MB
1TB (Trillionbyte 萬億字節(jié) 太字節(jié))=1024GB,其中1024=2^10 ( 2 的10次方)
1PB(Petabyte 千萬億字節(jié) 拍字節(jié))=1024TB
1EB(Exabyte 百億億字節(jié) 艾字節(jié))=1024PB
1ZB (Zettabyte 十萬億億字節(jié) 澤字節(jié))= 1024 EB
1YB (Jottabyte 一億億億字節(jié) 堯字節(jié))= 1024 ZB
1BB (Brontobyte 一千億億億字節(jié))= 1024 YB

四窍蓝、 數(shù)據(jù)分析流程: 采集-ETL-分析-顯示
參考網(wǎng)站1:http://blog.jobbole.com/86708/參考網(wǎng)站2:http://www.mahaixiang.cn/sjfx/817.html

決定目標;2. 確定業(yè)務(wù)手段繁成;3. 數(shù)據(jù)收集吓笙;4. 數(shù)據(jù)清洗;5. 數(shù)據(jù)建模巾腕;6. 培養(yǎng)一個數(shù)據(jù)科學團隊面睛;7. 優(yōu)化和重復;
采集與預(yù)處理(清洗)——>存儲管理——>計算模式——>分析挖掘——>可視化處理

采集與預(yù)處理:從數(shù)據(jù)源采集的數(shù)據(jù)尊搬,需要通過數(shù)據(jù)融合侮穿、數(shù)據(jù)集成、數(shù)據(jù)整合毁嗦,生成新的數(shù)據(jù)集,供后續(xù)查詢回铛、分析狗准、處理提供統(tǒng)一的數(shù)據(jù)視圖

五、 計算模式:迭代 流 批處理 交互式
交互式

  • 系統(tǒng)與操作人員以人機對話的方式一問一答—
  • 操作人員提出請求,數(shù)據(jù)以對話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果.
  • 存儲在系統(tǒng)中的數(shù)據(jù)文件能夠被及時處理修改,同時 處理結(jié)果可以立刻被使用.
  • 典型系統(tǒng)有Dremel茵肃、spark

批處理

  • 最適合于完成大數(shù)據(jù)批處理的計算模式是MapReduce 腔长,
  • MapReduce 是一個單輸入、兩階段( Map 和Reduce) 的數(shù)據(jù)處理過程验残。首
  • 對具有簡單數(shù)據(jù)關(guān)系捞附、易于劃分的大規(guī)模數(shù)據(jù)采用"分而治之"的并行處理思想
  • MapReduce 提供了一個統(tǒng)一的并行計算框架,把并行計算所涉及到的諸多系統(tǒng)層細節(jié)都交給計算框架去完成您没,
  • 簡化了程序員進行并行化程序設(shè)計的負擔鸟召。

流式計算

  • 對一定時間窗口內(nèi)應(yīng)用系統(tǒng)產(chǎn)生的新數(shù)據(jù)完成實時的計算,避免造成數(shù)據(jù)堆積和丟失氨鹏。
  • 在電信欧募、電力、道路監(jiān)控仆抵、互聯(lián)網(wǎng)日志處理等得到廣泛應(yīng)用跟继。
  • 數(shù)據(jù)運動,計算不動镣丑,不同的運算節(jié)點常常綁定在不同的服務(wù)器上

迭代

  • 解決批量計算的難以迭代的缺陷
  • 典型應(yīng)用:spark

圖計算

  • 圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系
  • 隨著圖中節(jié)點和邊數(shù)的增多(達到幾千萬甚至上億數(shù)), 圖數(shù)據(jù)處理的復雜性增加
  • 圖的存儲和處理都十分困難
  • 中較為典型的系統(tǒng)包括Google 公司的Pregel 舔糖、Facebook Giraph 、Spark 下的GraphX

六莺匠、 簡介分布式系統(tǒng)

七金吗、 CDH
目前而言,不收費的Hadoop版本主要有三個(均是國外廠商),分別是:Apache(最原始的版本辽聊,所有發(fā)行版均基于這個版本進行改進)纪挎、Cloudera版本(Cloudera’s Distribution Including Apache hadoop,簡稱CDH)跟匆、Hortonworks版本(Hortonworks Data Platform异袄,簡稱“HDP”),對于國內(nèi)而言玛臂,絕大多數(shù)選擇CDH版本烤蜕。

八、 CAP原理
C:Consistency(一致性), 所有的節(jié)點上的數(shù)據(jù)時刻保持同步
A:Availability(可用性), 每個請求都能接受到一個響應(yīng)迹冤,無論響應(yīng)成功或失敗
P:Partition tolerance(分區(qū)容錯性) :系統(tǒng)應(yīng)該能持續(xù)提供服務(wù)讽营,即使系統(tǒng)內(nèi)部有消息丟失(分區(qū))

九、 hadoop技術(shù)棧 hdfs泡徙,mapreduce,hive橱鹏,hbase,sqoop

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堪藐,一起剝皮案震驚了整個濱河市莉兰,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌礁竞,老刑警劉巖糖荒,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異模捂,居然都是意外死亡捶朵,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門狂男,熙熙樓的掌柜王于貴愁眉苦臉地迎上來综看,“玉大人,你說我怎么就攤上這事并淋≡幔” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵县耽,是天一觀的道長句喷。 經(jīng)常有香客問我,道長兔毙,這世上最難降的妖魔是什么唾琼? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮澎剥,結(jié)果婚禮上锡溯,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好祭饭,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布芜茵。 她就那樣靜靜地躺著,像睡著了一般倡蝙。 火紅的嫁衣襯著肌膚如雪九串。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天寺鸥,我揣著相機與錄音猪钮,去河邊找鬼。 笑死胆建,一個胖子當著我的面吹牛烤低,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播笆载,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼扑馁,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了凉驻?” 一聲冷哼從身側(cè)響起檐蚜,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎沿侈,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體市栗,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡缀拭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了填帽。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛛淋。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖篡腌,靈堂內(nèi)的尸體忽然破棺而出褐荷,到底是詐尸還是另有隱情,我是刑警寧澤嘹悼,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布叛甫,位于F島的核電站,受9級特大地震影響杨伙,放射性物質(zhì)發(fā)生泄漏其监。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一限匣、第九天 我趴在偏房一處隱蔽的房頂上張望抖苦。 院中可真熱鬧,春花似錦、人聲如沸锌历。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽究西。三九已至窗慎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間怔揩,已是汗流浹背捉邢。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留商膊,地道東北人伏伐。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像晕拆,于是被迫代替她去往敵國和親藐翎。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容