余晟以為:大數(shù)據(jù)漫談(精華版)

經(jīng)常有朋友問王浴,免費的生意到底是怎么玩的斗遏?團購這種“站在跟前打折”的做法沒有貓膩嗎山卦?每次我解釋完這類問題,常會有人感嘆說:好精明诵次。是的账蓉,傳統(tǒng)上說做這種生意的人必須“心眼多”、“會算”逾一。但換個角度看铸本,“精明”和“心眼多”并不是獨特的天賦,說到底無非是“駕馭數(shù)據(jù)的能力”而已遵堵。如果說過去駕馭數(shù)據(jù)很大程度上需要依賴聰明才智箱玷,那么現(xiàn)在依靠技術(shù)的發(fā)展,駕馭數(shù)據(jù)的門檻已經(jīng)大大降低了陌宿,進入“大數(shù)據(jù)”時代之后锡足,這一點應(yīng)該體現(xiàn)得更加明顯。不得不承認限番,”大數(shù)據(jù)“已經(jīng)成了熱門的詞匯舱污,仿佛一夜之間呀舔,我們就進入了”大數(shù)據(jù)“時代弥虐,處理數(shù)據(jù)的各種限制和困難都不復(fù)存在了。隨之而來的媚赖,大家駕馭數(shù)據(jù)的能力都應(yīng)該突飛猛進霜瘪,玩轉(zhuǎn)數(shù)據(jù)再也不是什么難事。但是惧磺,事實真的如此嗎颖对?

不幸的是,現(xiàn)在很多所謂的”大數(shù)據(jù)“磨隘,只有量的積累缤底,沒有質(zhì)的提升顾患,只有規(guī)模的增長,沒有價值的飛躍个唧。依靠迅速提升的存儲能力江解,我們可以保存幾乎無限的數(shù)據(jù)。但是大家能從數(shù)據(jù)里挖掘出來多少內(nèi)容徙歼?看來看去犁河,似乎還只是原先的那些指標,充其量是能更快得到結(jié)果而已魄梯。這就是我們想要的”大數(shù)據(jù)“嗎桨螺?如果不是,真正的”大數(shù)據(jù)“應(yīng)該怎樣玩酿秸?

要回答這個問題灭翔,可以去閱讀各種和”大數(shù)據(jù)“相關(guān)的書籍,得到一大堆”經(jīng)典“例子辣苏,也可以聽聽在每天與數(shù)據(jù)打交道的先行者們的說法缠局,傾聽來自第一線的感悟。

很多人還沒有為大數(shù)據(jù)做好準備考润,最明顯的狭园,還有很多公司仍然在定期清理日志。存儲容量在大數(shù)據(jù)時代已經(jīng)不再重要糊治,所以”存儲日志“并沒有嚴格的容量限制唱矛。即便是看來簡單的日志,也包含了足夠多的數(shù)據(jù)井辜,只是尚未挖掘出足夠的價值绎谦。《大數(shù)據(jù)時代》的作者牛津大學(xué)教授舍恩伯格推進了一步:傳統(tǒng)觀念里大家把數(shù)據(jù)視作成本粥脚,為了某個目的(或者假設(shè))窃肠,精打細算地收集數(shù)據(jù),分析得出結(jié)論刷允。但是到了大數(shù)據(jù)時代冤留,因為容量不再是問題,所以數(shù)據(jù)的角色從成本變成了環(huán)境树灶,很多探索也變?yōu)閺摹盁o目的”收集的海量數(shù)據(jù)中提煉價值的過程纤怒。所以在大數(shù)據(jù)時代,背靠云服務(wù)提供商天通,大家都應(yīng)當在頭腦里把“容量”和“成本”解綁泊窘,改換全新的思維方式。

“非結(jié)構(gòu)化數(shù)據(jù)”是未來的重要發(fā)展方向。長期以來烘豹,有很多技術(shù)人員——包括我在內(nèi)——都期望世間萬物都是規(guī)范嚴謹瓜贾、邏輯清晰的,就好像柏拉圖那純凈的理念世界携悯。然而真實的世界里總是充滿了噪音阐虚、變異、錯誤蚌卤,于是大家需要做大量的規(guī)范和清洗实束,而且免不了抱怨連天。近幾年我逐漸想到逊彭,或許我們不應(yīng)該簡單把不規(guī)范的世界肢解后硬塞到規(guī)范的世界里咸灿,而應(yīng)該用更高明的辦法來駕馭不規(guī)范的世界;不應(yīng)當強求接收的數(shù)據(jù)都是”結(jié)構(gòu)化“的侮叮,而應(yīng)當努力適應(yīng)各種非結(jié)構(gòu)化的數(shù)據(jù)避矢。

現(xiàn)在很多的云服務(wù)都側(cè)重存儲和計算,而忽略了真正的應(yīng)用囊榜,云服務(wù)更習(xí)慣扮演簡單的“保險箱”审胸,不去關(guān)心箱子里到底裝了什么,能挖掘出什么價值卸勺。相應(yīng)的砂沛,很多的應(yīng)用開發(fā)商也只把云服務(wù)當“保險箱”來用,所有的應(yīng)用都由自己來動手曙求。

比如對于常見的視頻類應(yīng)用碍庵,無論是SNS圈中流行的秒拍,還是安防領(lǐng)域熱門的視頻監(jiān)控悟狱,其背后的要求和邏輯是有很多共性的静浴。但是長期以來市場上并沒有這種”數(shù)據(jù)+應(yīng)用“的解決方案,所以即便有云服務(wù)挤渐,應(yīng)用的開發(fā)團隊還是需要花費大量的精力來做鑒權(quán)苹享、轉(zhuǎn)碼、分發(fā)浴麻、直播等業(yè)務(wù)得问。

造成這種現(xiàn)象的重要原因是云服務(wù)時代的脫節(jié):網(wǎng)絡(luò)上現(xiàn)成的類庫往往側(cè)重于功能,在單機來做相當簡單白胀,但是云環(huán)境下的玩法不同于單機椭赋,所以把單純的功能變成云服務(wù)環(huán)境下的應(yīng)用就成了相當有挑戰(zhàn)的工作。結(jié)果或杠,應(yīng)用開發(fā)商自己來包裝卻事倍功半,或者云服務(wù)提供商提供了一些功能宣蔚,但往往失之簡單向抢,無法與應(yīng)用深度結(jié)合认境。結(jié)果就是功能和云服務(wù)融合不起來,總有功虧一簣的遺憾挟鸠。

如果云服務(wù)提供商能深入理解各種應(yīng)用叉信,把通用服務(wù)抽象出來并以云服務(wù)組件的方式提供,就能實現(xiàn)云服務(wù)提供商和應(yīng)用開發(fā)商的雙贏艘希。如果要給云服務(wù)打分的話硼身,數(shù)據(jù)的存儲和簡單處理就像是1,各種包裝好的應(yīng)用組件就像是0覆享,有多少種應(yīng)用組件佳遂,1后面就有多少個0,效能就可以增加多少個數(shù)量級撒顿。

關(guān)于數(shù)據(jù)的“動靜結(jié)合”丑罪,我不由得想起以前看過的一本書,《硬球:政治是這樣玩的》凤壁,分享的經(jīng)驗吩屹,都在宣示“數(shù)據(jù)是這樣玩的”,讓大家看到數(shù)據(jù)的真正玩法拧抖,刷新大家對數(shù)據(jù)的認識煤搜。

如何確保“大數(shù)據(jù)”真正反映了現(xiàn)實唧席,讓我們能基于此認識世界呢宅楞?

我們當然可以收集海量的、非結(jié)構(gòu)化的數(shù)據(jù)袱吆,但現(xiàn)實世界高度復(fù)雜的厌衙,在應(yīng)對大數(shù)據(jù)時,我們?nèi)绾尾拍茏C明在我們構(gòu)建的“數(shù)據(jù)世界”里已經(jīng)包括了足夠的數(shù)據(jù)绞绒?比如要分析人的某人運動模式婶希,我們當然需要收集人的運動軌跡,除了常見的經(jīng)緯度和速度蓬衡,是否還需要關(guān)心高度喻杈、溫度、濕度狰晚、心跳等等信息筒饰?如果某項信息,比如血壓壁晒,與我們關(guān)心的內(nèi)容或規(guī)律密切相關(guān)而又沒有被收集進來瓷们,即便有了海量數(shù)據(jù),有了超強的數(shù)據(jù)分析能力,我們是否仍然會茫然無緒谬晕?退一步說碘裕,如果這些數(shù)據(jù)已經(jīng)收集了,但結(jié)構(gòu)不同攒钳,分布不同帮孔,歸屬不同,我們應(yīng)該如何把這些數(shù)據(jù)串通融合起來不撑,真正發(fā)現(xiàn)其中的規(guī)律文兢?

這些問題我沒有答案,我也認為暫時不可能有答案焕檬。因為解答這類問題姆坚,不再依賴單純的思辨和邏輯的推理,而是更多需要依靠扎扎實實的探索揩页,尤其需要大量有聰明才智和深厚積累的人才的持續(xù)投入旷偿。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市爆侣,隨后出現(xiàn)的幾起案子萍程,更是在濱河造成了極大的恐慌,老刑警劉巖兔仰,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茫负,死亡現(xiàn)場離奇詭異,居然都是意外死亡乎赴,警方通過查閱死者的電腦和手機忍法,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來榕吼,“玉大人饿序,你說我怎么就攤上這事「迹” “怎么了原探?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長顽素。 經(jīng)常有香客問我咽弦,道長,這世上最難降的妖魔是什么胁出? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任型型,我火速辦了婚禮,結(jié)果婚禮上全蝶,老公的妹妹穿的比我還像新娘闹蒜。我一直安慰自己寺枉,他們只是感情好,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布嫂用。 她就那樣靜靜地躺著型凳,像睡著了一般丈冬。 火紅的嫁衣襯著肌膚如雪嘱函。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天埂蕊,我揣著相機與錄音往弓,去河邊找鬼。 笑死蓄氧,一個胖子當著我的面吹牛函似,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播喉童,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼撇寞,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了堂氯?” 一聲冷哼從身側(cè)響起蔑担,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎咽白,沒想到半個月后啤握,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡晶框,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年排抬,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片授段。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蹲蒲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出侵贵,到底是詐尸還是另有隱情届搁,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布模燥,位于F島的核電站咖祭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏蔫骂。R本人自食惡果不足惜么翰,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望辽旋。 院中可真熱鬧浩嫌,春花似錦檐迟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至骚腥,卻和暖如春敦间,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背束铭。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工廓块, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人契沫。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓带猴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親懈万。 傳聞我的和親對象是個殘疾皇子拴清,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容