在《排行榜是怎么算出來的措近?》一文里溶弟,我們把服務器想象成了一面很大的墻,墻上有很多抽屜瞭郑。當你在某一局游戲里玩了567分后辜御,游戲會把你的名字和分數一起,寄送給服務器屈张。服務器收到之后擒权,會打開一個空抽屜,把567這個數據放進去阁谆,并在抽屜上貼一個標簽碳抄,上面寫下你的名字。
這篇文章我們繼續(xù)討論一下這個抽屜具體是怎么回事场绿,以便盡早擺脫這個比喻剖效。
想象一下你走進FBI的檔案室,這時候你看到了一個滿是抽屜的柜子焰盗,每個柜子上貼著一個通緝犯的ID璧尸,你打開一個貼著“通緝犯_007”標簽的抽屜,在里面發(fā)現了一張表格熬拒,這張表格是這位通緝犯的簡歷:
昵稱:Jack愛放鹽爷光,
性別:男,
籍貫:德克薩斯州澎粟,
政治面貌:清白瞎颗,
追捕原因:走私、販賣咸豆腐腦
這張簡歷里捌议,排在左邊的昵稱、性別引有、籍貫叫做鍵(Key)瓣颅,排在右邊的Jack愛放鹽、男譬正、德克薩斯州這些叫做這個鍵所對應的值(Value)宫补。這張由許多鍵值對構成的簡歷叫做一個文檔(Document)。每份文檔都貼著一個標簽(例如“通緝犯_007”)曾我,以便索引粉怕,每個柜子像是一個數據集(Collection),而整個檔案室就像是一個面向文檔的數據庫抒巢。
回到《水果忍者》這個例子贫贝,假設我們還要記錄游戲者獲得某個分數的時間,參考剛才FBI檔案室的做法,服務器在收到游戲者寄送來的數據包時稚晚,需要記錄如下一個文檔:
昵稱:Jack愛放鹽崇堵,
最高分數:567,
獲得時間:2014年5月4日
現在我們可以找一個叫做“排行榜”的柜子客燕,把這個文檔存在它的某個空抽屜里鸳劳,并把這位游戲者的ID(例如“游戲者_001”)作為標簽貼在抽屜的外邊。除了“排行榜”這個數據集合以外也搓,我們還需要其它的數據集赏廓,或許我們會有一個“玩家信息”的柜子,柜子的每個抽屜里都放著玩家的個人信息:
昵稱:Jack愛放鹽傍妒,
國家:美國幔摸,
簽名檔:咸還是甜,這是一個問題拍顷,
使用設備:iPhone7
所以抚太,整個游戲的數據就是這么存儲的:數據庫里有很多個數據集,每個數據集里有很多個文檔昔案,而一個文檔就是以某種格式(比如上面的鍵值對格式)來封裝尿贫、組織數據的這么一個東西。
當然踏揣,這種面向文檔的數據庫并非存儲數據的唯一方式庆亡,我們還有更傳統(tǒng)的關系型數據庫,還有基于節(jié)點和邊的網絡型數據庫等等捞稿,我們甚至可以用自己定義的格式又谋,把數據存儲在各種文件里;這些數據有可能是保存在你的iPhone上(單機游戲)娱局,也可能是保存在某臺服務器上(多人游戲)彰亥;但不管以何種方式存在哪里,這些數據都是對游戲世界的一種描述衰齐,是對游戲狀態(tài)的一種持久化任斋。
透過這些數據,我們可以看到它們所描述的世界耻涛,數據越多废酷,關于這個世界的信息就越詳細。當數據多到一定程度后抹缕,我們就擁有了一個傳說中的“大數據”澈蟆。這些數據是如此之龐雜,以至于其中許多變量之間的相關關系是無法一眼看出來的卓研。這個時候趴俘,我們需要把這些有價值的相關關系挖掘出來。
等等,什么是相關關系哮幢,為什么我需要把相關關系挖出來带膀?挖出來后能吃嗎?
先說說什么是相關關系橙垢。數學上的定義太枯燥垛叨,所以請各位再次容忍一下我的不嚴謹。設想你在剛才的FBI數據庫里取出了很多文檔柜某,并逐個觀察每個文檔里一個叫做“地域”的鍵和另一個叫做“豆腐腦喜好”的鍵嗽元,假設你發(fā)現“地域”值為“北方”的文檔,“豆腐腦喜好”的值都是“咸”喂击,而“地域”為“南方”的剂癌,“豆腐腦喜好”的值都是“甜”,那么我們就說這兩個變量是有相關關系的翰绊,下次再看到一個文檔地域為南佩谷,我們就能猜測它的豆腐腦喜好為甜。再比如游戲角色的級別越高监嗜,殺傷力也越高谐檀;一條微博的轉發(fā)量越多,被閱讀次數也多裁奇;一個物體受力越大桐猬,加速度就越大,等等刽肠。
盡管相關關系并不意味著因果關系溃肪,但它可以讓你去猜測變量之間可能存在的因果關系,此外音五,對相關關系本身的理解也有助于我們對周圍的世界獲得更加準確的判斷惫撰,但這一切都有個前提,就是你的數據庫是沒問題的躺涝。
遺憾的是厨钻,我們常常有意無意地在自己的數據庫里做著數據挖掘:知乎用戶太裝逼,豆瓣用戶小清新诞挨,處女室友太糾結,天蝎前任復仇心呢蛤。地圖炮這個群攻型的拉仇恨主動技惶傻,正是以此為理論基礎的。如果你把我們的世界想象成一款游戲其障,那么每個人所掌握的數據都只是服務器上所有數據的一部分而已银室,由此得出的結論,難免有失偏頗。