最初看到這篇文章是在 @登州知府 的微博上看到的糟把,他的微博上分享了很多好的技術(shù)博客绢涡,推薦。由于本人英語學(xué)的比較爛,翻譯的錯(cuò)漏之處請大家指正寒匙。原文在這里:How Dropbox securely stores your passwords
概述
眾所周知芯侥,存儲明文密碼是一件很糟糕的事情。一旦數(shù)據(jù)庫存儲了明文密碼数苫,那么用戶賬號就危險(xiǎn)了。因?yàn)檫@個(gè)原因辨液,早在1976年虐急,工業(yè)界就提出了一套使用單向哈希機(jī)制來安全地存儲密碼的標(biāo)準(zhǔn)(從Unix Crypt開始)。很不幸的是滔迈,盡管這種方式可以阻止你直接讀取到密碼止吁,但是所有的哈希機(jī)制都不能阻止攻擊者在離線環(huán)境下暴力破解它,攻擊者只需要遍歷一個(gè)可能包含正確密碼的列表燎悍,對每個(gè)可能的密碼進(jìn)行哈希然后跟獲取到的密碼(使用哈希機(jī)制存儲的密碼)比對即可敬惦。在這種環(huán)境下,安全哈希函數(shù)如SHA在用于密碼哈希的時(shí)候有一個(gè)致命的缺陷谈山,那就是它們運(yùn)算起來太快了俄删。一個(gè)現(xiàn)代的商用CPU一秒鐘可以生成數(shù)百萬個(gè)SHA256哈希值。一些特殊的GPU集群的計(jì)算速度甚至可以達(dá)到每秒數(shù)十億次奏路。
過去的這些年抗蠢,為了應(yīng)對攻擊,我們對密碼哈希方法進(jìn)行了數(shù)次升級思劳。在本文中迅矛,我們將會為各位分享我們關(guān)于密碼存儲機(jī)制的更多的細(xì)節(jié)以及我們?yōu)槭裁匆@么做的原因。我們的密碼存儲方案依賴三個(gè)不同層級的密碼保護(hù)潜叛,如下圖所示秽褒。為了方便說明壶硅,在下圖中以及接下來我們省略了字節(jié)編碼(base64)。
我們采用bcrypt作為我們的核心哈希算法销斟,每個(gè)用戶都有一個(gè)獨(dú)立的salt以及一個(gè)加密的key(這個(gè)key也可以是一個(gè)全局的庐椒,通常也叫pepper),salt和key是分開存儲的蚂踊。我們的方法與基礎(chǔ)的bcrypt算法在一些重要的方面是不同的约谈。
首先,用戶的明文密碼通過SHA512算法轉(zhuǎn)換成了一個(gè)哈希值犁钟。這一步主要是針對bcrypt的兩個(gè)突出的問題棱诱。有些bcrypt的實(shí)現(xiàn)中會將用戶輸入截取為72個(gè)字節(jié)大小以降低密碼熵,而另外有一些實(shí)現(xiàn)并沒有截取用戶輸入導(dǎo)致其容易受到DoS攻擊涝动,因?yàn)樗鼈冊试S任意長度的密碼輸入迈勋。通過使用SHA,我們可以快速的將一些的確很長的密碼轉(zhuǎn)換為一個(gè)512比特的固定長度醋粟,解決了上述兩個(gè)問題-即避免降低密碼熵和預(yù)防DoS攻擊靡菇。[譯者注:關(guān)于第一點(diǎn),熵是信息學(xué)里面的一個(gè)概念米愿,這里引入信息學(xué)中的信息熵(我們常聽人說這個(gè)信息多厦凤、那個(gè)信息少,對信息“多少”的量化就是信息熵)育苟,用它來作為密碼強(qiáng)度的評估標(biāo)準(zhǔn)较鼓。信息熵計(jì)算公式為 H = L * log 2 N,其中宙搬,L表示密碼的長度笨腥,N是字符種類拓哺,密碼強(qiáng)度 (H) 與密碼長度 (L) 和密碼包含字符的種類 (N) 這兩個(gè)因素有關(guān)勇垛。也就是說密碼包含的字符種類越多,密碼長度越長士鸥,熵越大闲孤,更多細(xì)節(jié)參見這篇文章)。由于一些bcrypt算法截?cái)嗔擞脩裘艽a為72個(gè)字節(jié)長度烤礁,從而導(dǎo)致超過72個(gè)字節(jié)的用戶輸入無效讼积,一定程度降低了密碼熵。而第二點(diǎn)是有文章提到如果不限制用戶輸入的密碼長度脚仔,很容易遭到DoS攻擊勤众,比如django之前有個(gè)版本沒有限制密碼長度,而它用的又是PBKDF2哈希算法(PBKDF2是是一個(gè)CPU計(jì)算密集型算法鲤脏,但是對GPU效果不如bcrypt们颜,這里有個(gè)比較)吕朵,這樣如果攻擊者輸入的密碼長度達(dá)到1M的話,對密碼進(jìn)行哈希需要幾分鐘的計(jì)算時(shí)間從而在大量這樣的請求下導(dǎo)致服務(wù)器無法正常服務(wù)窥突,這里使用SHA512先進(jìn)行一次哈希的優(yōu)缺點(diǎn)分析還可以參見這個(gè)帖子]
然后努溃,對SHA512哈希后的值使用bcrypt算法再次哈希,使用的工作因子是10阻问,每個(gè)用戶都有一個(gè)單獨(dú)的salt梧税。不像其他的哈希算法比如SHA等,bcrypt算法很慢称近,它很難通過硬件和GPU加速第队。設(shè)置工作因子為10,在我們的服務(wù)器上執(zhí)行一次bcrypt大概需要100毫秒煌茬。[譯者注:使用python的bcrypt模塊斥铺,默認(rèn)的工作因子為12,在我的電腦上執(zhí)行一次大概是300毫秒左右坛善,而如果工作因子設(shè)置為20晾蜘,這個(gè)時(shí)間大概為89秒]
最后,使用bcrypt哈希過后的結(jié)果再次使用AES256算法進(jìn)行加密眠屎,使用的密鑰是所有用戶同意的剔交,我們稱之為pepper。pepper是我們基于深度考量的一種防御措施改衩,pepper以一種攻擊者難以發(fā)現(xiàn)的方式存儲起來(比如不要放在數(shù)據(jù)庫的表中)岖常。由此,如果只是密碼被拖庫了葫督,通過AES256加密過的哈希密碼對于攻擊者來說毫無用處竭鞍。
為什么不用{scrypt,argon2}
我們也曾考慮過使用scrypt,但是我們對bcrypt有更多的經(jīng)驗(yàn)橄镜。關(guān)于這幾種算法那種更好的討論一直都有偎快,大部分的安全領(lǐng)域的專家都認(rèn)為scrypt和bcrypt的安全性上相差無幾。
我們考慮在下一次升級中使用argon2算法:因?yàn)樵谖覀儾捎卯?dāng)前的方案的時(shí)候洽胶,argon2還沒有贏得 Password Hashing Competition晒夹。此外,盡管我們認(rèn)為argon2是非常棒的密碼哈希函數(shù)姊氓,我們更傾向于采用bcrypt丐怯,因?yàn)閺?999年以來,bcrypt還沒有發(fā)現(xiàn)有任何重大的攻擊存在翔横。
為什么使用一個(gè)全局的密鑰(pepper)替代哈希函數(shù)
如前面提到的读跷,采用一個(gè)全局的密鑰是我們深度權(quán)衡后的一個(gè)防御措施,而且禾唁,pepper我們是單獨(dú)存儲的效览。但是些膨,單獨(dú)存儲pepper也意味著我們要考慮pepper泄露的可能性。如果我們只是用pepper對密碼進(jìn)行哈希钦铺,那么一旦pepper泄露订雾,我們無法從哈希后的結(jié)果反解得到之前bcrypt哈希過的密碼值。作為一個(gè)替代方案矛洞,我們使用了AES256加密算法洼哎。AES256算法提供了差不多的安全性,同時(shí)我們還可以反解回原來的值沼本。盡管AES256這個(gè)加密函數(shù)的輸入是隨機(jī)的噩峦,我們還是額外加上了一個(gè)隨機(jī)的初始化向量(IV)來增強(qiáng)安全性。
下一步抽兆,我們考慮將pepper存儲到一個(gè)硬件安全模塊(HSM)识补,對我們來說,這雖然是一個(gè)相當(dāng)復(fù)雜的任務(wù)辫红,但是它能極大的降低pepper泄露的風(fēng)險(xiǎn)凭涂。同時(shí),我們也計(jì)劃在下一次升級中增強(qiáng)bcrypt的強(qiáng)度贴妻。
展望
我們相信使用SHA512,加上bcrypt和AES256是當(dāng)前保護(hù)密碼最穩(wěn)妥和流行的方法之一切油。同時(shí),所謂道高一尺魔高一丈名惩。我們的密碼哈希程序只是加固Dropbox的眾多舉措之一澎胡,我們還部署了額外的保護(hù)措施-比如針對暴力攻擊者密碼嘗試次數(shù)的速度限制,驗(yàn)證碼娩鹉,以及其他一些方法等攻谁。如之前圖片中所示,我們積極的在各個(gè)層級進(jìn)行投入以確保安全弯予。當(dāng)然戚宦,也很期待能夠聽到諸位的高見。
譯者注
總結(jié)一下這篇文章熙涤,說道的Dropbox的加密方法大致就是三點(diǎn):其一阁苞,使用SHA512把明文密碼哈希困檩,既避免降低密碼的熵祠挫,又能防止DoS攻擊。其二悼沿,使用bcrypt二次哈希等舔,工作因子為10,每個(gè)用戶都有一個(gè)獨(dú)立的salt糟趾。最后慌植,使用一個(gè)全局密鑰(pepper)通過AES256算法對二次哈希的值進(jìn)行加密存儲甚牲。