什么是哈希算法
將任意長(zhǎng)度的二進(jìn)制值串映射為固定長(zhǎng)度的二進(jìn)制值串,這個(gè)映射的規(guī)則就是哈希算法。而通過原始數(shù)據(jù)映射之后得到的二進(jìn)制值串就是哈希值忘晤。
一個(gè)優(yōu)秀的哈希算法要滿足幾點(diǎn)要求:
- 從哈希值不能反向推導(dǎo)出原始數(shù)據(jù)(所以哈希算法也叫意向哈希算法)吴汪;
- 對(duì)輸入數(shù)據(jù)非常敏感寄摆,哪怕原始數(shù)據(jù)只修改了一個(gè)Bit,最后得到的哈希值也大不相同懦窘;
- 散列沖突的概率要很小前翎,對(duì)于不同的原始數(shù)據(jù),哈希值相同的概率非常谐┩俊港华;
- 哈希算法的執(zhí)行效率要盡量高效,針對(duì)較長(zhǎng)的文本毅戈,也能快速地計(jì)算出哈希值苹丸。
哈希算法的應(yīng)用
哈希算法的應(yīng)用有很多,常見的有:安全加密苇经、唯一標(biāo)識(shí)赘理、數(shù)據(jù)較驗(yàn)、散列函數(shù)扇单、負(fù)載均衡商模、數(shù)據(jù)分片、分布式存儲(chǔ)蜘澜。
應(yīng)用一:安全加密
說到哈希算法的應(yīng)用施流,最先想到的就是安全加密。最常用的哈希算法是MD5和SHA鄙信。
沒有絕對(duì)安全的加密瞪醋。越復(fù)雜、越難破解的加密算法装诡,需要的計(jì)算時(shí)間也越長(zhǎng)银受。
應(yīng)用二:唯一標(biāo)識(shí)
通過哈希算法對(duì)文件進(jìn)行哈希計(jì)算,得到的哈希值作為文件的唯一標(biāo)識(shí)鸦采。通過這個(gè)唯一標(biāo)識(shí)可以在數(shù)據(jù)庫中快速找到對(duì)應(yīng)的文件宾巍。
網(wǎng)盤的秒傳功能就是基于這個(gè)方法實(shí)現(xiàn)的。在上傳之前渔伯,先計(jì)算文件的哈希值顶霞,再到數(shù)據(jù)庫中查找,如果找到锣吼,就直接提示上傳成功选浑。
應(yīng)用三:數(shù)據(jù)校驗(yàn)
相信大家都用過BT下載軟件吧蓝厌?我們知道,BT下載的原理是基于P2P協(xié)議的鲜侥。從多個(gè)機(jī)器上并行下載一個(gè)2GB的電影褂始,這個(gè)電影文件可能會(huì)被分割成很多個(gè)文件塊(比如分成1000塊,每塊大約2MB)描函。等所有文件塊都下載完成之后崎苗,再組裝成一個(gè)完整的電影文件。
具體的BT協(xié)議很復(fù)雜舀寓,校驗(yàn)方法也有很多胆数,這里說其中一種思路。
通過哈希算法互墓,對(duì)1000個(gè)文件塊分別取哈希值必尼,并且保存在種子文件中。當(dāng)文件塊下載完成后篡撵,通過相同的哈希算法判莉,對(duì)下載好的文件塊逐一對(duì)比。如果不同育谬,說明這個(gè)文件塊不完成或者被篡改了券盅,需要再生產(chǎn)從其他宿主機(jī)器上下載這個(gè)文件塊。
應(yīng)用四:散列函數(shù)
散列函數(shù)是哈希算法的一種應(yīng)用膛檀,更加看重的是散列的平均性和哈希算法的執(zhí)行效率锰镀。
課后思考
現(xiàn)在,區(qū)塊鏈?zhǔn)且粋€(gè)很火的領(lǐng)域咖刃,它被很多人神秘化泳炉,不過其底層的實(shí)現(xiàn)原理并不復(fù)雜。其中嚎杨,哈希算法就是它的一個(gè)非常重要的理論基礎(chǔ)花鹅。你能講一講區(qū)塊鏈?zhǔn)褂玫氖悄姆N哈希算法嗎?是為了解決什么問題而使用的呢枫浙?
- SHA 256:產(chǎn)生一個(gè)256位哈希刨肃。這是目前比特幣正在使用的。
- Keccak-256:產(chǎn)生256位哈希自脯,目前由Ethereum使用。
- CryptoNight:Monero使用的哈希函數(shù)斤富。
保證每個(gè)區(qū)塊是唯一標(biāo)識(shí)的膏潮、不可逆、無沖突满力。