《新數(shù)字秩序的革命》讀書筆記
戴維·溫伯格將世界的秩序分為三個(gè)層次然磷。第一層次是事物本身,第二層次是關(guān)于信息的信息丛塌,也就是元信息榕订,第三個(gè)層次是被徹底數(shù)字化的信息和元信息店茶。位于美國紐約曼哈頓的貝特曼圖片資料館的變遷,非常清晰地印證了溫伯格關(guān)于秩序的三個(gè)層次的說法劫恒。這家珍藏有大量美國歷史圖片的資料館贩幻,在被比爾·蓋茨買下后,用 19輛卡車從曼哈頓將上千萬張歷史圖片搬遷到了賓夕法尼亞的一個(gè)山洞里两嘴,洞內(nèi)的溫度常年保持在零下4℃丛楚,以確保圖片可以保存盡可能長的時(shí)間。這是第一層次的問題憔辫,歷史照片的保存受制于物理世界種種條件的限制趣些。雖然這里有不錯(cuò)的目錄分類體系,但是你如果要尋找“南北戰(zhàn)爭期間士兵戶外就餐”的照片贰您,恐怕需要好幾年的時(shí)間坏平。這是第二層次的問題,元信息依然受制于媒介的限制锦亦,不能迅速地查找和獲得舶替。比爾·蓋茨創(chuàng)辦的Corbis網(wǎng)站是貝特曼圖片資料館的母公司,這里有400萬張圖片杠园,卻只有9個(gè)專職分類員來管理顾瞪,因?yàn)槟憧梢越o數(shù)字化圖片添加很多標(biāo)簽,也就可以在不同的通道中找到它。與貝特曼資料館的元信息相比陈醒,Corbis的第三層的被徹底數(shù)字化的信息可以非程璩龋快捷地被人們搜索和得到。
隨著信息技術(shù)的發(fā)展钉跷,信息更新傳播的速度越來越快弥鹦,用戶看待、認(rèn)識世界的方式因?yàn)槿A秩序的操作而發(fā)生改變爷辙。以往的二階刊物中惶凝,圖書信息的發(fā)布需要權(quán)威專家的謹(jǐn)慎篩選,權(quán)威專家在信息的展示上擁有比信息創(chuàng)造者更高的優(yōu)先級犬钢。三階秩序當(dāng)中,每一個(gè)人--消費(fèi)者思灰、雇員等不同職業(yè)不同學(xué)歷的人都能夠直接接觸到信息玷犹、對信息進(jìn)行個(gè)性化的組織、然后上傳洒疚。每一個(gè)人不僅式信息的使用者歹颓,也是信息的創(chuàng)造者。傳統(tǒng)權(quán)威不再能夠堅(jiān)持要求大眾尋求他們的意見油湖,地位權(quán)重開始極大的下降巍扛。三階秩序極大的改變了我們對“世界如何整理”的看法,也改變了我們對權(quán)威的看法乏德。以往撤奸,用戶都是信息的被動(dòng)接受者,所借助的都是 權(quán)威專家為哦我們撰寫喊括、過濾的信息‰使希現(xiàn)在我們需要直接面對混亂無序的“樹葉”,需要越來越多 的元數(shù)據(jù)來幫助我們判斷信息的真實(shí)性郑什,以及如何建立信息的關(guān)聯(lián)性府喳。真正的權(quán)威中包含普通大眾。
人類的意識是由用戶集中注意力的同時(shí)隱式的了解情景的能力所建筑的蘑拯。人們的注意力一轉(zhuǎn)钝满,隱式需求就會(huì)變成明式。隱式信息往往包含更多的用戶信息申窘,而且比明式信息可信度更高弯蚜。但是電腦無法理解這些“隱式指令”,他們只能處理它們得到的指令偶洋。目前很多應(yīng)用會(huì)在網(wǎng)站入口讓用戶選擇標(biāo)簽熟吏,但是這個(gè)無法真正的獲取用戶的準(zhǔn)確全面的數(shù)據(jù)。將復(fù)雜,意義豐富的現(xiàn)象明確化十分重要牵寺,但是不是簡單的從“隱式”拉到“明式”而已悍引。當(dāng)信息組織將現(xiàn)象過于簡化的化,將造成一些不完整的且誤導(dǎo)人的說法帽氓。信息組織必須正確掌握與“隱式”事物之間的平衡趣斤,才能做到真正的明確化。人們在描述世界上“雜亂無序”的信息時(shí)黎休,需要包含什么信息浓领、不包含什么信息,都是基于目的出發(fā)的势腮,他們的出發(fā)點(diǎn)都是對他們十分重要的因素联贩。因此,信息組織必須要明確人們的組織信息的目的捎拯。
信息組織也稱信息整序泪幌,是利用一定的規(guī)則、方法和技術(shù)對信息的特征進(jìn)行揭示和描述署照,并按給定的參數(shù)和序列公式排列祸泪,使信息從無序集合轉(zhuǎn)換為有序集合的過程。
現(xiàn)有信息組織的工具與方法體系難以適應(yīng)大數(shù)據(jù)組織的任務(wù)建芙。信息組織的自動(dòng)化和智能化水平不足没隘。大數(shù)據(jù)環(huán)境下的大部分?jǐn)?shù)據(jù)都是以數(shù)字方式存貯的或已經(jīng)被數(shù)字化的,這與2000年數(shù)字化存儲(chǔ)的數(shù)據(jù)量占數(shù)據(jù)總量的25%相比禁荸,有了巨大的飛躍右蒲,IDC(International Data Corporation,國際數(shù)據(jù)公司)將這種場景稱為數(shù)字宇宙屡限。數(shù)字宇宙的規(guī)模正在迅速擴(kuò)大品嚣,IDC發(fā)布的數(shù)字宇宙研究報(bào)告顯示,其規(guī)模將每兩年翻一番[15]钧大。這種數(shù)據(jù)膨脹的速度對信息組織的效率提出了更高的要求翰撑,對信息組織的自動(dòng)化和智能化水平提出了挑戰(zhàn)。
借助存量語義資源啊央,對大數(shù)據(jù)進(jìn)行語義化組織眶诈。語義化是信息組織的重要發(fā)展方向,無論是語義網(wǎng)的提出瓜饥,還是關(guān)聯(lián)數(shù)據(jù)逝撬、知識圖譜的蓬勃發(fā)展,都是在朝著語義化的方向邁進(jìn)乓土。對于大數(shù)據(jù)來說宪潮,可以通過信息組織的方法溯警、工具對大數(shù)據(jù)進(jìn)行一定程度的語義化,進(jìn)而通過實(shí)體的關(guān)聯(lián)對各類大數(shù)據(jù)進(jìn)行連接狡相、整合梯轻。