大數(shù)據(jù)時代-生活呐籽、工作與思維的大變革讀書筆記二

該書的第二章主要闡述了大數(shù)據(jù)時代對于數(shù)據(jù)要接受數(shù)據(jù)的混雜性而非準(zhǔn)確性這一觀點河爹。

過去人們收集的數(shù)據(jù)受自身認識的影響璃谨,認為只能處理有限的數(shù)據(jù)沙庐,因此就真的只是停留在處理有限的數(shù)據(jù)這一階段。采樣的過程中有限的數(shù)據(jù)決定著數(shù)據(jù)要盡可能的準(zhǔn)確佳吞,因為數(shù)據(jù)的有限意味著錯誤會很明顯拱雏,甚至影響到最后分析結(jié)果的準(zhǔn)確性。然而事實上在全體數(shù)據(jù)當(dāng)中底扳,結(jié)構(gòu)化的數(shù)據(jù)占5%铸抑,非結(jié)構(gòu)化的數(shù)據(jù)則高達95%,如果我們只局限于利用整齊劃一的結(jié)構(gòu)化的數(shù)據(jù)來進行分析的話衷模,勢必是管中窺豹舍本逐末的鹊汛。

首先我們要在思想上接受這個世界上的數(shù)據(jù)本身就是雜亂無章的,我們只能在小范圍內(nèi)對數(shù)據(jù)進行分類阱冶,排序刁憋,讓它們看起來像圖書館里的藏書那樣整整齊齊。然而世界每時每刻都在發(fā)生變化木蹬,數(shù)據(jù)的數(shù)量也在不停地呈幾何倍數(shù)的增長至耻,我們又該如何去整理這些時刻發(fā)生著變化的數(shù)據(jù)呢?

作者在書中舉了谷歌的機器翻譯與麻省理工的通貨緊縮預(yù)測軟件這兩個例子镊叁。關(guān)于機器翻譯尘颓,2013年4月我曾經(jīng)參與過由百度公司牽頭,幾所高校共同承擔(dān)的基于云計算的機器翻譯的一項國家863項目晦譬,所做的工作就是進行語料庫的對齊疤苹。坦白來說,人工進行對所收集的語料庫對齊效率是比較低的蛔添,而且數(shù)量也是相當(dāng)有限的痰催。如果僅僅是給予這些有限的英漢互譯的語料庫來實現(xiàn)機器翻譯的話,未免重蹈了60年代美國機器翻譯研發(fā)人員覆轍迎瞧;不過既然名稱中包含了“基于云計算”這五個字夸溶,我想多少還是會有大數(shù)據(jù)的思想在里面。谷歌的翻譯盡管時不時會出現(xiàn)一些能充當(dāng)段子的笑話凶硅,但正是由于它的語料庫參考了網(wǎng)絡(luò)上它能捕捉到的翻譯文本缝裁,不在乎質(zhì)量是否良莠不齊,而不是用復(fù)雜的算法去匹配有限的語料庫足绅,谷歌才能做到目前來說最好也最快的機器翻譯捷绑。而麻省理工的通貨緊縮預(yù)測軟件的例子則告訴我們,利用不那么精準(zhǔn)的大數(shù)據(jù)分析能夠快速地得出結(jié)果氢妈,判斷出事物發(fā)展的趨勢粹污,這個時效性的價值而花費大量人力物力而得出的精確數(shù)據(jù)的價值要高的多得多,特別是在預(yù)測天災(zāi)人禍的出現(xiàn)的時候首量。

在大數(shù)據(jù)時代壮吩,我們必須要轉(zhuǎn)變我們的思想,單純?yōu)榱俗非缶珳?zhǔn)而把自己局限在在一個小規(guī)模的數(shù)據(jù)只會讓自己“不知廬山真面目加缘,只緣身在此山中鸭叙。”擁抱錯誤反而能讓我們跳出既定的框架拣宏,去快速把握事物的全貌沈贝,去判斷它的未來發(fā)展趨勢。這樣的思想將會更加高效地指導(dǎo)我們?nèi)ネ瓿蓪τ诰_度要求不那么高的任務(wù)勋乾。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宋下,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子辑莫,更是在濱河造成了極大的恐慌杨凑,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件摆昧,死亡現(xiàn)場離奇詭異撩满,居然都是意外死亡,警方通過查閱死者的電腦和手機绅你,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門伺帘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人忌锯,你說我怎么就攤上這事伪嫁。” “怎么了偶垮?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵张咳,是天一觀的道長帝洪。 經(jīng)常有香客問我,道長脚猾,這世上最難降的妖魔是什么葱峡? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮龙助,結(jié)果婚禮上砰奕,老公的妹妹穿的比我還像新娘。我一直安慰自己提鸟,他們只是感情好军援,可當(dāng)我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著称勋,像睡著了一般胸哥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上赡鲜,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天烘嘱,我揣著相機與錄音,去河邊找鬼蝗蛙。 笑死蝇庭,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的捡硅。 我是一名探鬼主播哮内,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼壮韭!你這毒婦竟也來了北发?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤喷屋,失蹤者是張志新(化名)和其女友劉穎琳拨,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屯曹,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡狱庇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年碳抄,在試婚紗的時候發(fā)現(xiàn)自己被綠了记某。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡愕够,死狀恐怖偷俭,靈堂內(nèi)的尸體忽然破棺而出浪讳,到底是詐尸還是另有隱情,我是刑警寧澤涌萤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布淹遵,位于F島的核電站口猜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏透揣。R本人自食惡果不足惜济炎,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望淌实。 院中可真熱鬧,春花似錦猖腕、人聲如沸拆祈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽放坏。三九已至,卻和暖如春老玛,著一層夾襖步出監(jiān)牢的瞬間淤年,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工蜡豹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留麸粮,地道東北人。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓镜廉,卻偏偏與公主長得像弄诲,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子娇唯,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容