擁抱「小數(shù)據(jù)」材彪,共建暢通無(wú)阻的數(shù)據(jù)世界!

注:該文最初發(fā)布在開(kāi)放知識(shí)基金會(huì)中國(guó)博客, 如果你想了解更多循榆,請(qǐng)關(guān)注官方微博

注意:本文是對(duì)開(kāi)放知識(shí)基金會(huì)創(chuàng)始人 Dr. Rufus Pollock 的一系列「小數(shù)據(jù)」的文章進(jìn)行翻譯整理后編寫(xiě)而成析恢,文中圖示未注明的均來(lái)自原文,具體參考的原文列表如下:

1. Forget Big Data, Small Data is the Real Revolution http://blog.okfn.org/2013/04/22/forget-big-data-small-data-is-the-real-revolution/
2. What Do We Mean By Small Data http://blog.okfn.org/2013/04/26/what-do-we-mean-by-small-data/
3. Frictionless Data: making it radically easier to get stuff done with data http://blog.okfn.org/2013/04/24/frictionless-data-making-it-radically-easier-to-get-stuff-done-with-data/
4. Git (and Github) for Data http://blog.okfn.org/2013/07/02/git-and-github-for-data/

「大數(shù)據(jù)」v.s. 「小數(shù)據(jù)」[1]

「大數(shù)據(jù)」已然成為2013最火熱的詞秧饮,不論是不是身在技術(shù)圈映挂,你或多或少都會(huì)聽(tīng)到「大數(shù)據(jù)」如何如何神奇,是解決醫(yī)療盗尸、交通柑船、貧窮等等各種大小問(wèn)題的關(guān)鍵。但事實(shí)上而言泼各,關(guān)于大數(shù)據(jù)的討論往往忽略了更為重要的一點(diǎn):真正的機(jī)會(huì)其實(shí)根本不在所謂的「大數(shù)據(jù)」鞍时,而恰恰是在「小數(shù)據(jù)」。我們要意識(shí)到扣蜻,這個(gè)時(shí)代需要的不是建立起一個(gè)個(gè)新的數(shù)據(jù)寡頭來(lái)支配一切「大數(shù)據(jù)」逆巍,而是要重視去中心化的數(shù)據(jù)生態(tài)來(lái)使流動(dòng)的「小數(shù)據(jù)」得以整合協(xié)作

事實(shí)上莽使,如果我們回顧一下計(jì)算機(jī)歷史锐极,所謂的「大數(shù)據(jù)」從不是我們感到陌生的事物。自計(jì)算機(jī)誕生起芳肌,我們就一直面臨著數(shù)據(jù)量超越計(jì)算處理能力的挑戰(zhàn)灵再,而這一挑戰(zhàn)目前卻因?yàn)樯虡I(yè)利益的需求被粉飾成一個(gè)全新的機(jī)遇肋层。

與此同時(shí),我們卻沒(méi)能意識(shí)到什么才是真正的革命性挑戰(zhàn):在這個(gè)數(shù)據(jù)日益豐富的時(shí)代翎迁,如何構(gòu)建大型的栋猖、去中心化的系統(tǒng)來(lái)訪問(wèn)、存儲(chǔ)以及處理數(shù)據(jù)汪榔。你可能會(huì)覺(jué)得這個(gè)描述和目前所宣傳的「大數(shù)據(jù)」挑戰(zhàn)并沒(méi)有什么兩樣蒲拉,但請(qǐng)注意這里我們并不是在談?wù)撘粋€(gè)大型企業(yè)如何利用并行技術(shù)在大規(guī)模計(jì)算平臺(tái)上處理數(shù)據(jù)。讓我們真正興奮的是揍异,如何在這個(gè)數(shù)據(jù)時(shí)代去建設(shè)去中心化的系統(tǒng)使得更多的普通人能夠在這個(gè)由豐富的「小數(shù)據(jù)」構(gòu)成的數(shù)據(jù)生態(tài)中更有效地協(xié)同合作全陨。

在未來(lái)的某一天,我們會(huì)發(fā)現(xiàn)談?wù)摗复髷?shù)據(jù)」是很可笑的衷掷,因?yàn)檎缥覀儾粫?huì)談?wù)摗复笮蛙浖挂粯樱瑪?shù)據(jù)的尺寸大小并不是其價(jià)值之所在柿菩,真正的價(jià)值在于數(shù)據(jù)其本身是否能夠?yàn)槲覀兊膯?wèn)題提供解決的方案戚嗅。

事實(shí)上,對(duì)于很多問(wèn)題而言我們根本不需要所謂的「大數(shù)據(jù)」枢舶,「小數(shù)據(jù)」已經(jīng)足以為我們提供足夠的信息懦胞。比如說(shuō),我們本地的公交時(shí)刻表凉泄,政府的支出數(shù)據(jù)躏尉,家庭的用電量等等,這些其實(shí)都只算得上「小數(shù)據(jù)」后众。再想想平時(shí)我們常用的 Excel胀糜,它所能處理的數(shù)據(jù)也只是「小數(shù)據(jù)」。著名的 TED 演講者 Hans Rosling 也僅是用「小數(shù)據(jù)」讓我們通過(guò)世界人口變化來(lái)更好了解這個(gè)世界蒂誉。

因此當(dāng)我們?nèi)ソ鉀Q問(wèn)題的時(shí)候教藻,中心化的巨型「大數(shù)據(jù)」系統(tǒng)并非是我們所需,我們應(yīng)當(dāng)將一個(gè)大問(wèn)題分解為子問(wèn)題右锨,從而使得不同的組織和個(gè)人得以參與進(jìn)來(lái)用「小數(shù)據(jù)」去解決一個(gè)個(gè)子問(wèn)題括堤。

什么是小數(shù)據(jù)?[2]

上面說(shuō)了很多绍移,那究竟「小數(shù)據(jù)」是如何定義的悄窃?開(kāi)放知識(shí)基金會(huì)認(rèn)為「小數(shù)據(jù)指的是可以在單個(gè)機(jī)器(特別是高性能的筆記本與單個(gè)服務(wù)器)上就能操作的數(shù)據(jù)」。為什么我們要特別說(shuō)筆記本呢蹂窖?因?yàn)樵谶@個(gè)數(shù)據(jù)極其豐富的時(shí)代轧抗,我們的數(shù)據(jù)不再是來(lái)自于一個(gè)單一的提供商,這就使得任何人得以方便地去從不同源取回?cái)?shù)據(jù)恼策,和其他人協(xié)同處理和使用數(shù)據(jù)鸦致。而這里很重要的一點(diǎn)便是潮剪,對(duì)于每一個(gè)參與者,數(shù)據(jù)都應(yīng)當(dāng)能被他們自己的電腦或筆記本來(lái)處理分唾。

如果我們能再回顧下計(jì)算機(jī)的發(fā)展歷史抗碰,我們會(huì)進(jìn)一步意識(shí)到,數(shù)據(jù)的「小」和「大」從來(lái)都是相對(duì)的绽乔,所謂的「大數(shù)據(jù)」可能隨著計(jì)算機(jī)技術(shù)的發(fā)展隨時(shí)就變?yōu)槊魅盏摹感?shù)據(jù)」弧蝇。我們今時(shí)今日所面對(duì)的所謂「大數(shù)據(jù)」的機(jī)遇和我們過(guò)往面對(duì)的「微型計(jì)算機(jī)」的機(jī)遇,「互聯(lián)網(wǎng)」的機(jī)遇都有一個(gè)共通點(diǎn):隨著技術(shù)的發(fā)展折砸,所謂的「大」(比如大型計(jì)算機(jī))都會(huì)變?yōu)椤感 梗ū热缥⑿陀?jì)算機(jī))看疗,但所有的革命性變化都來(lái)自「小」。

一個(gè)暢通無(wú)阻的數(shù)據(jù)世界 [3]

「小數(shù)據(jù)」的革命才剛剛開(kāi)始睦授。我們要意識(shí)到支持「小數(shù)據(jù)」有效協(xié)作的工作和基礎(chǔ)平臺(tái)都還未成熟两芳。其中一個(gè)重要的問(wèn)題在于,每當(dāng)你想要開(kāi)始一個(gè)新的數(shù)據(jù)項(xiàng)目時(shí)去枷,你都要重新去網(wǎng)上搜尋相關(guān)的數(shù)據(jù)怖辆,重新清洗,重新打包删顶,從而得以開(kāi)始真正的分析和使用工作竖螃。

這樣的體驗(yàn)實(shí)在是令人不能滿意。讓我們假象一下逗余,如果我們做數(shù)據(jù)工作能像我們今時(shí)今日做菜一樣該多好:你不用自己去農(nóng)場(chǎng)種地或是飼養(yǎng)家禽特咆,你只要去菜市場(chǎng)或超市便能買(mǎi)回所有需要的「材料」(數(shù)據(jù))。這一切都得益于整個(gè)標(biāo)準(zhǔn)化的農(nóng)業(yè)生態(tài)系統(tǒng)录粱,那么如果我們有一套這樣成熟的數(shù)據(jù)生態(tài)系統(tǒng)腻格,豈不是很不錯(cuò)?當(dāng)我們可以將注意力完全放在我們的數(shù)據(jù)分析和使用上关摇,而不用擔(dān)心數(shù)據(jù)的搜集和清洗荒叶,那么我們將能用數(shù)據(jù)創(chuàng)造更大的價(jià)值。

開(kāi)放知識(shí)基金會(huì)在這一問(wèn)題上設(shè)想建立起一套數(shù)據(jù)「物流」的標(biāo)準(zhǔn):即類似于食材输虱,我們需要有一整套系統(tǒng)的秤量些楣、包裝、運(yùn)輸?shù)臉?biāo)準(zhǔn)化流程和協(xié)議宪睹。而有了這樣的標(biāo)準(zhǔn)后愁茁,

事實(shí)上建立這樣一個(gè)「物流」標(biāo)準(zhǔn),我們是有很大優(yōu)勢(shì)的亭病,因?yàn)榕c真實(shí)世界的「物流」不同鹅很,數(shù)據(jù)從一臺(tái)電腦傳輸?shù)搅硪慌_(tái)電腦的成本是極其低廉的!這就意味著我們只需要關(guān)心如何將將數(shù)據(jù)從一個(gè)應(yīng)用送進(jìn)另一個(gè)應(yīng)用的過(guò)程標(biāo)準(zhǔn)化以及簡(jiǎn)單化罪帖。開(kāi)放知識(shí)基金會(huì)為此提出三個(gè)重要領(lǐng)域的工作:

** 簡(jiǎn)單的數(shù)據(jù)標(biāo)準(zhǔn) **

對(duì)于標(biāo)準(zhǔn)而言促煮,我們提出了一個(gè)RFC形式的超輕量型數(shù)據(jù)標(biāo)準(zhǔn):data package邮屁。它參考了大量的既有標(biāo)準(zhǔn)例如 JSON, 并遵循簡(jiǎn)單實(shí)用的設(shè)計(jì)理念。它被設(shè)計(jì)為對(duì)任意數(shù)據(jù)的最小化封裝格式菠齿,并且具備可擴(kuò)展性佑吝。更多的詳情,可以閱讀完整的標(biāo)準(zhǔn)文檔绳匀∮蠓蓿基于 data package,我們?yōu)楸砀裥蛿?shù)據(jù)特別定制了 Simple Data Format 這一封裝格式疾棵, 它使用一個(gè)基于 JSON 的 「JSON Table Schema」來(lái)描述表格數(shù)據(jù)的結(jié)構(gòu)定義信息戈钢。更多信息,可以閱讀它的完整文檔是尔。

** 簡(jiǎn)單的工具和整合 **

對(duì)于工具而言殉了,我們制作了簡(jiǎn)單的 data package 生成器,驗(yàn)證器拟枚,顯示器宣渗,從而你可以以此為開(kāi)端,基于我們的 data package 來(lái)開(kāi)發(fā)更多有意思的應(yīng)用梨州。 在開(kāi)放知識(shí)基金會(huì),我們也正在實(shí)驗(yàn)新一代的數(shù)據(jù)版本控制系統(tǒng) dat (由 Max Ogden 正在開(kāi)發(fā))以及類似于 npm 的數(shù)據(jù)包管理工具 dpm田轧。 如果你有興趣暴匠,請(qǐng)參與進(jìn)我們開(kāi)放知識(shí)基金會(huì)實(shí)驗(yàn)室討論與開(kāi)發(fā)工作。

** 數(shù)據(jù)集的雪球效應(yīng) **

對(duì)于初始的數(shù)據(jù)集而言傻粘,我們過(guò)去已經(jīng)收集了大量的參考性以及指標(biāo)性數(shù)據(jù)每窖,并將它們按照 data package 的規(guī)范進(jìn)行封裝,再存放在 GitHub 上 (github.com/datasets)弦悉。使用 GitHub 有著許多好處窒典,首先我們能夠?qū)?shù)據(jù)進(jìn)行版本控制,對(duì)于每一項(xiàng)修改進(jìn)行跟蹤記錄稽莉。其次瀑志,我們能夠在 GitHub 上直接預(yù)覽所有的 CSV 數(shù)據(jù)。最后污秆, GitHub 最為天然的協(xié)作性平臺(tái)讓去中心化的數(shù)據(jù)項(xiàng)目協(xié)作更為容易劈猪。當(dāng)然,我們也意識(shí)到我們?nèi)耘f需要一個(gè)統(tǒng)一的平臺(tái)來(lái)展示我們以及社區(qū)中其他成員所發(fā)布的遵循 data pacakge 標(biāo)準(zhǔn)的數(shù)據(jù)良拼。為此战得,我們搭建了 data.okfn.org 平臺(tái) (中國(guó)的朋友們,請(qǐng)?jiān)L問(wèn)中文版 datachina.heroku.com)庸推, 它作為一個(gè)輕量級(jí)的門(mén)戶將分布在不同 GitHub 庫(kù)中的 data package 索引后羅列在一處常侦,但其本身并不存儲(chǔ)任何數(shù)據(jù)浇冰,做到了去中心化。我們歡迎任何對(duì)數(shù)據(jù)感興趣的朋友聋亡,向我們的平臺(tái)繼續(xù)建議好的數(shù)據(jù)肘习,讓好數(shù)據(jù)能更暢通無(wú)阻得流動(dòng)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末杀捻,一起剝皮案震驚了整個(gè)濱河市井厌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌致讥,老刑警劉巖仅仆,帶你破解...
    沈念sama閱讀 216,843評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異垢袱,居然都是意外死亡墓拜,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)请契,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)咳榜,“玉大人,你說(shuō)我怎么就攤上這事爽锥∮亢” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,187評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵氯夷,是天一觀的道長(zhǎng)臣樱。 經(jīng)常有香客問(wèn)我,道長(zhǎng)腮考,這世上最難降的妖魔是什么雇毫? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,264評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮踩蔚,結(jié)果婚禮上棚放,老公的妹妹穿的比我還像新娘。我一直安慰自己馅闽,他們只是感情好飘蚯,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著捞蛋,像睡著了一般孝冒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拟杉,一...
    開(kāi)封第一講書(shū)人閱讀 51,231評(píng)論 1 299
  • 那天庄涡,我揣著相機(jī)與錄音,去河邊找鬼搬设。 笑死穴店,一個(gè)胖子當(dāng)著我的面吹牛撕捍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播泣洞,決...
    沈念sama閱讀 40,116評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼忧风,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了球凰?” 一聲冷哼從身側(cè)響起狮腿,我...
    開(kāi)封第一講書(shū)人閱讀 38,945評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎呕诉,沒(méi)想到半個(gè)月后缘厢,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,367評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡甩挫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評(píng)論 2 333
  • 正文 我和宋清朗相戀三年贴硫,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伊者。...
    茶點(diǎn)故事閱讀 39,754評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡英遭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出亦渗,到底是詐尸還是另有隱情挖诸,我是刑警寧澤,帶...
    沈念sama閱讀 35,458評(píng)論 5 344
  • 正文 年R本政府宣布法精,位于F島的核電站税灌,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏亿虽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評(píng)論 3 327
  • 文/蒙蒙 一苞也、第九天 我趴在偏房一處隱蔽的房頂上張望洛勉。 院中可真熱鬧,春花似錦如迟、人聲如沸收毫。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,692評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)此再。三九已至,卻和暖如春玲销,著一層夾襖步出監(jiān)牢的瞬間输拇,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,842評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工贤斜, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留策吠,地道東北人逛裤。 一個(gè)月前我還...
    沈念sama閱讀 47,797評(píng)論 2 369
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像猴抹,于是被迫代替她去往敵國(guó)和親带族。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容