MD5簡介
Message Digest Algorithm MD5(中文名為消息摘要算法第五版)為計算機(jī)安全領(lǐng)域廣泛使用的一種散列函數(shù)突委,用以提供消息的完整性保護(hù)玻孟。該算法的文件號為RFC 1321(R.Rivest,MIT Laboratory for Computer Science and RSA Data Security Inc. April 1992)。
MD5即Message-Digest Algorithm 5(信息-摘要算法5)唯欣,用于確保信息傳輸完整一致卧抗。是計算機(jī)廣泛使用的雜湊算法之一(又譯摘要算法围橡、哈希算法)革答,主流編程語言普遍已有MD5實現(xiàn)。將數(shù)據(jù)(如漢字)運算為另一固定長度值莲镣,是雜湊算法的基礎(chǔ)原理福稳,MD5的前身有MD2、MD3和MD4瑞侮。
MD5算法具有以下特點:
1的圆、壓縮性:任意長度的數(shù)據(jù),算出的MD5值長度都是固定的区岗。
2、容易計算:從原數(shù)據(jù)計算出MD5值很容易毁枯。
3慈缔、抗修改性:對原數(shù)據(jù)進(jìn)行任何改動,哪怕只修改1個字節(jié)种玛,所得到的MD5值都有很大區(qū)別藐鹤。
4、強(qiáng)抗碰撞:已知原數(shù)據(jù)和其MD5值赂韵,想找到一個具有相同MD5值的數(shù)據(jù)(即偽造數(shù)據(jù))是非常困難的娱节。
MD5的作用是讓大容量信息在用數(shù)字簽名軟件簽署私人密鑰前被"壓縮"成一種保密的格式(就是把一個任意長度的字節(jié)串變換成一定長的十六進(jìn)制數(shù)字串)。除了MD5以外祭示,其中比較有名的還有sha-1肄满、RIPEMD以及Haval等。
舉個實際應(yīng)用的例子。比如你在百度云qq群文件等上傳文件的時候稠歉,有時上傳幾百兆的文件可以幾秒內(nèi)完成掰担,是真的網(wǎng)絡(luò)有這么快么?不是怒炸,通常是服務(wù)器已經(jīng)存在你所上傳的文件带饱。那么系統(tǒng)是如何確定服務(wù)器已經(jīng)存在你要上傳的文件的呢?多為計算你要上傳文件的MD5阅羹,如果MD5和已有文件的MD5一致勺疼,就認(rèn)為文件已經(jīng)存在。
參考資料
計算MD5
linux 下 shell命令行工具md5sum用于計算與校驗RFC 1321所描述的128位MD5哈希值执庐。
$ echo "hello" > hello
$ md5sum hello
b1946ac92492d2347c6235b4d2611184 hello
上述過程也可以用python3實現(xiàn)
>>> import hashlib
>>> hashlib.md5(open('hello','rb').read()).hexdigest()
'b1946ac92492d2347c6235b4d2611184'
上述代碼的函數(shù)封裝,參見get_md5函數(shù)穷躁。
[Md5sum 英文維基百科參考](https://en.wikipedia.org/wiki/Md5sum)
MD5值重復(fù)文件多進(jìn)程檢查工具
測試過程中經(jīng)常發(fā)現(xiàn)MD5值相同的圖片耕肩。之前沒有用并發(fā),檢查過程經(jīng)常需要一個小時问潭,現(xiàn)在改成多進(jìn)程猿诸。一般3分鐘以內(nèi)可以完成處理(48核)。
此模式也是自行開發(fā)性能測試工具的模型之一狡忙。
代碼:
#!/usr/bin/python3
# -*- coding: utf-8 -*-
# Author: xurongzhong#126.com 技術(shù)支持qq群:144081101
# CreateDate: 2018-1-8
# check_md5.py
import multiprocessing
from pathlib import Path
import argparse
import os
import data_common
def consumer(queue, results, lock):
while True:
item = queue.get()
if item is None:
break
name = os.path.basename(item)
md5 = data_common.get_md5(item, is_file=True)
with lock:
if md5 in results:
print("Same md5", results[md5], name)
else:
results[md5] =[]
results[md5] = results[md5] + [name]
if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument('directory', action="store", help=u'目錄')
parser.add_argument('-t', action="store", dest="typename",
default="*", help=u'文件擴(kuò)展名')
parser.add_argument('--version', action='version',
version='%(prog)s 1.1 Rongzhong xu 2018 03 22')
options = parser.parse_args()
process = []
queue = multiprocessing.Queue()
results = multiprocessing.Manager().dict()
lock = multiprocessing.Lock()
if multiprocessing.cpu_count() < 3:
number = multiprocessing.cpu_count()
else:
number = multiprocessing.cpu_count() - 1
# Launch the consumer process
for i in range(number):
t = multiprocessing.Process(
target=consumer,args=(queue, results, lock))
t.daemon=True
process.append(t)
for i in range(number):
process[i].start()
p = Path(options.directory)
for item in p.glob('**/*.{}'.format(options.typename)):
queue.put(str(item))
for i in range(number):
queue.put(None)
for i in range(number):
process[i].join()
f = open("md5_files.txt",'w')
f2 = open("files.txt",'w')
for item in dict(results):
f2.write("{},{}\n".format(item,results[item]))
if len(results[item]) > 1:
f.write("{},{}\n".format(item,results[item]))
演示
#!python
$ python3 check_md5.py /home/andrew/code/paper
Same md5 ['2018.01.07-19.38.15_0.9999967.jpg'] 2018.01.07-19.38.15_0.99999679.jpg
$ cat md5_files.txt
43c5a6e1dcf79d095e97ce63885c5cd7,['2018.01.07-19.38.15_0.9999967.jpg', '2018.01.07-19.38.15_0.99999679.jpg']
andrew@andrew-PowerEdge-T630:~/code/mobile_data/tools$
注意梳虽,求MD5值依賴data_common.py
上面使用的多進(jìn)程屬于python高性能的內(nèi)容,如需想深入了解可以參考書籍 灾茁。