繼Gitlab之后爬迟,Instapaper也停服了近一個(gè)禮拜曹傀,和Gitlab干凈利落的數(shù)據(jù)被刪了回檔一個(gè)月相比子房,這次Instapaper的遭遇更加令人同情:他們并沒(méi)有自己運(yùn)維數(shù)據(jù)庫(kù)服務(wù)器,也沒(méi)有神智不清的工程師半夜上去rm /* -rf奥裸,而是把數(shù)據(jù)服務(wù)放在了以穩(wěn)定性和伸縮性著稱亞馬遜的RDS上险掀。
ext3的鍋?
在14年創(chuàng)建的實(shí)例中湾宙,RDS的mysql實(shí)例都運(yùn)行在ext3的文件系統(tǒng)上樟氢,作為已經(jīng)被主流Linux發(fā)行版棄用的ext3,最大支持2TB的單個(gè)文件大小侠鳄,這次Instapaper就是撞上了2T文件大小這堵墻埠啃。14年之后的rds實(shí)例都基于ext4系統(tǒng),理論上支持16T的文件大小伟恶,單個(gè)文件大小被亞馬遜限制在6T霸妹。
kibibyte KiB 2^10
mebibyte MiB 2^20
gibibyte GiB 2^30
tebibyte TiB 2^40
pebibyte PiB 2^50
exbibyte EiB 2^60
zebibyte ZiB 2^70
yobibyte YiB 2^80
與之對(duì)比,就單個(gè)文件大小限制來(lái)說(shuō):windows常用的EXFAT是4GB知押,NTFS是2TB叹螟,幸好有Sun留給我們的人類智慧結(jié)晶——支持1EB的ZFS,用mac的話台盯,HFS+支持8EB罢绽。
這次出事的是一個(gè)表,一個(gè)表静盅!
Instapaper的事后分析文章里指出良价,這次是bookmarks表的單表數(shù)據(jù)文件達(dá)到了2TB,僅僅一個(gè)表就達(dá)到了2TB蒿叠,可見(jiàn)Instapapaer是一個(gè)多么流行的服務(wù)明垢,估計(jì)是前不久收費(fèi)功能尤其是全文搜索免費(fèi)之后,用戶更是紛至沓來(lái)市咽。
就算換成6TB的ext4系統(tǒng)痊银,用rds也不過(guò)再多撐幾個(gè)月罷了。
數(shù)據(jù)多大算大施绎?
有個(gè)說(shuō)法是溯革,一臺(tái)電腦裝不下贞绳,需要分布式存儲(chǔ)的就算大數(shù)據(jù)。某些公司一個(gè)excel文檔(最大一百萬(wàn)行致稀,一萬(wàn)六千列)就能裝下的數(shù)據(jù)冈闭,也好意思叫大?
上面的文件大小不夠我就換文件系統(tǒng)的線性思維方法抖单,成本是不可接受的萎攒。在3D NAND技術(shù)還沒(méi)有大規(guī)模開(kāi)始堆料,大容量存儲(chǔ)還靠傳統(tǒng)電磁感應(yīng)式硬盤的今天矛绘,超過(guò)8T的硬盤耍休,容量再往上增加,價(jià)格就是“廠商高興”模式了蔑歌。
就算用戶愿意買單羹应,現(xiàn)有的存儲(chǔ)原理揽碘,還是依賴基于電子/原子的物理特性次屠,因?yàn)樾畔⒑突玖W拥慕壎ǎ碚撋嫌幸粋€(gè)無(wú)法突破的上限:地球上的原子總數(shù)——大約2^160雳刺。
已經(jīng)是一個(gè)哲學(xué)問(wèn)題
單就信息本身來(lái)說(shuō)劫灶,首先信息代表的實(shí)體是無(wú)限的,就別提實(shí)體的種種排列組合了掖桦。限制僅僅是用戶——我們?nèi)祟惖恼J(rèn)知范圍本昏。我們用以存儲(chǔ)信息的方法,和上古時(shí)期的結(jié)繩記事并無(wú)本質(zhì)差別枪汪。
具體到一個(gè)時(shí)間點(diǎn)涌穆,我們能操作的存儲(chǔ)媒介數(shù)量X是有限的,認(rèn)識(shí)到的實(shí)體/概念/排列組合數(shù)Y也是有限的雀久,而記錄在案的數(shù)量Z宿稀,在媒體從石壁、繩子赖捌、竹簡(jiǎn)祝沸、紙張、硬盤一路走來(lái)越庇,量不斷增大罩锐。Y>>X>Z,古代講究“微言大義”卤唉,荊軻刺秦王具體場(chǎng)景我們只能腦補(bǔ)涩惑,而今天甚至一起盜竊案都有視頻資料可查。說(shuō)明了人類對(duì)自身認(rèn)識(shí)正在不斷深化——好吧起碼表面工作數(shù)據(jù)收集是越來(lái)越細(xì)致了桑驱。
等X==Z的時(shí)候境氢,估計(jì)人類就開(kāi)始嘗試突破次元壁了蟀拷,研究數(shù)據(jù)對(duì)人類的終極意義,大概就是這個(gè)吧萍聊。