1紫皇、大數(shù)據(jù)概念
大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉盆耽、管理和處理的數(shù)據(jù)集合蹋砚,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量摄杂、高增長率和多樣化的信息資產(chǎn)坝咐。
最小的基本單位是bit,按順序給出所有單位:bit析恢、Byte墨坚、KB、MB映挂、GB泽篮、TB、PB柑船、EB帽撑、ZB、YB椎组、BB油狂、NB、DB寸癌。
1Byte = 8 Bit
1KB = 1,024 Bytes
1MB = 1,024 KB = 1,048,576 Bytes
1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes
1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes
1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes
1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes
1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes
1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
2专筷、大數(shù)據(jù)的特點
1)Volume(大量)
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB蒸苇,而歷史上全人類總共說過的話的數(shù)據(jù)量大約是5EB磷蛹。當前,典型個人計算機硬盤的容量為TB量級溪烤,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級味咳。
2)Velocity(高速)
這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告檬嘀,預(yù)計到2020年槽驶,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前鸳兽,處理數(shù)據(jù)的效率就是企業(yè)的生命掂铐。
天貓雙十一:20**年6分58秒,天貓交易額超過100億
3)Variety(多樣)
這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以數(shù)據(jù)庫/文本為主的結(jié)構(gòu)化數(shù)據(jù)全陨,非結(jié)構(gòu)化數(shù)據(jù)越來越多爆班,包括網(wǎng)絡(luò)日志、音頻辱姨、視頻柿菩、圖片、地理位置信息等雨涛,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求枢舶。
4)Value(低價值密度)
價值密度的高低與數(shù)據(jù)總量的大小成反比。比如镜悉,在一天監(jiān)控視頻中祟辟,我們只關(guān)心宋宋老師晚上在床上健身那一分鐘医瘫,如何快速對有價值數(shù)據(jù)“提純”成為目前大數(shù)據(jù)背景下待解決的難題侣肄。
3、大數(shù)據(jù)能干啥醇份?
1)O2O:百度大數(shù)據(jù)+平臺通過先進的線上線下打通技術(shù)和客流分析能力稼锅,助力商家精細化運營,提升銷量僚纷。
2)零售:探索用戶價值矩距,提供個性化服務(wù)解決方案;貫穿網(wǎng)絡(luò)與實體零售怖竭,攜手創(chuàng)造極致體驗锥债。經(jīng)典案例,子尿布+啤酒痊臭。
3)大數(shù)據(jù)實時推薦
4)旅游:深度結(jié)合百度獨有大數(shù)據(jù)能力與旅游行業(yè)需求哮肚,共建旅游產(chǎn)業(yè)智慧管理、智慧服務(wù)和智慧營銷的未來广匙。
5)金融風險分析
6)移動聯(lián)通允趟、
7)人工智能
4、大數(shù)據(jù)發(fā)展前景
前景好不好鸦致,看薪資潮剪,看就業(yè)
人才缺口很大,薪資還可以
5分唾、大數(shù)據(jù)崗位都有哪些抗碰?
Spark開發(fā)工程師
大數(shù)據(jù)ETL開發(fā)工程師
大數(shù)據(jù)分析師
Hadoop開發(fā)工程師
大數(shù)據(jù)運維工程師
大數(shù)據(jù)架構(gòu)師
大數(shù)據(jù)人工智能
大數(shù)據(jù)機器學習