MD5值重復(fù)文件多進(jìn)程檢查工具check_md5.py - 性能測試工具開發(fā)

python測試開發(fā)項目實戰(zhàn)-目錄

MD5簡介

Message Digest Algorithm MD5(中文名為消息摘要算法第五版)為計算機(jī)安全領(lǐng)域廣泛使用的一種散列函數(shù)突委,用以提供消息的完整性保護(hù)玻孟。該算法的文件號為RFC 1321(R.Rivest,MIT Laboratory for Computer Science and RSA Data Security Inc. April 1992)。

MD5即Message-Digest Algorithm 5(信息-摘要算法5)唯欣,用于確保信息傳輸完整一致卧抗。是計算機(jī)廣泛使用的雜湊算法之一(又譯摘要算法围橡、哈希算法)革答,主流編程語言普遍已有MD5實現(xiàn)。將數(shù)據(jù)(如漢字)運算為另一固定長度值莲镣,是雜湊算法的基礎(chǔ)原理福稳,MD5的前身有MD2、MD3和MD4瑞侮。

MD5算法具有以下特點:

1的圆、壓縮性:任意長度的數(shù)據(jù),算出的MD5值長度都是固定的区岗。

2、容易計算:從原數(shù)據(jù)計算出MD5值很容易毁枯。

3慈缔、抗修改性:對原數(shù)據(jù)進(jìn)行任何改動,哪怕只修改1個字節(jié)种玛,所得到的MD5值都有很大區(qū)別藐鹤。

4、強(qiáng)抗碰撞:已知原數(shù)據(jù)和其MD5值赂韵,想找到一個具有相同MD5值的數(shù)據(jù)(即偽造數(shù)據(jù))是非常困難的娱节。

MD5的作用是讓大容量信息在用數(shù)字簽名軟件簽署私人密鑰前被"壓縮"成一種保密的格式(就是把一個任意長度的字節(jié)串變換成一定長的十六進(jìn)制數(shù)字串)。除了MD5以外祭示,其中比較有名的還有sha-1肄满、RIPEMD以及Haval等。

舉個實際應(yīng)用的例子。比如你在百度云qq群文件等上傳文件的時候稠歉,有時上傳幾百兆的文件可以幾秒內(nèi)完成掰担,是真的網(wǎng)絡(luò)有這么快么?不是怒炸,通常是服務(wù)器已經(jīng)存在你所上傳的文件带饱。那么系統(tǒng)是如何確定服務(wù)器已經(jīng)存在你要上傳的文件的呢?多為計算你要上傳文件的MD5阅羹,如果MD5和已有文件的MD5一致勺疼,就認(rèn)為文件已經(jīng)存在。

參考資料

計算MD5

linux 下 shell命令行工具md5sum用于計算與校驗RFC 1321所描述的128位MD5哈希值执庐。

$ echo "hello" > hello
$ md5sum hello 
b1946ac92492d2347c6235b4d2611184  hello

上述過程也可以用python3實現(xiàn)

>>> import hashlib
>>> hashlib.md5(open('hello','rb').read()).hexdigest()
'b1946ac92492d2347c6235b4d2611184'

上述代碼的函數(shù)封裝,參見get_md5函數(shù)穷躁。

[Md5sum 英文維基百科參考](https://en.wikipedia.org/wiki/Md5sum

MD5值重復(fù)文件多進(jìn)程檢查工具

測試過程中經(jīng)常發(fā)現(xiàn)MD5值相同的圖片耕肩。之前沒有用并發(fā),檢查過程經(jīng)常需要一個小時问潭,現(xiàn)在改成多進(jìn)程猿诸。一般3分鐘以內(nèi)可以完成處理(48核)。

此模式也是自行開發(fā)性能測試工具的模型之一狡忙。

代碼:


#!/usr/bin/python3
# -*- coding: utf-8 -*-
# Author:    xurongzhong#126.com 技術(shù)支持qq群:144081101
# CreateDate: 2018-1-8 
# check_md5.py

import multiprocessing
from pathlib import Path
import argparse
import os

import data_common

def consumer(queue, results, lock):
    while True:
        item = queue.get()
        if item is None:
            break        
        name = os.path.basename(item)
        md5 = data_common.get_md5(item, is_file=True)
        
        with lock:
            if md5 in results:
                print("Same md5", results[md5], name)
            else:
                results[md5] =[]
            results[md5] = results[md5] + [name]


if __name__ == '__main__':
    
    parser = argparse.ArgumentParser()
    parser.add_argument('directory', action="store", help=u'目錄')
    parser.add_argument('-t', action="store", dest="typename",
                        default="*", help=u'文件擴(kuò)展名')
    parser.add_argument('--version', action='version',
                        version='%(prog)s 1.1 Rongzhong xu 2018 03 22')
    options = parser.parse_args()
    
    process = []
    queue = multiprocessing.Queue()
    results = multiprocessing.Manager().dict()
    lock = multiprocessing.Lock()
    if multiprocessing.cpu_count() < 3:
        number = multiprocessing.cpu_count()
    else:
        number = multiprocessing.cpu_count() - 1
    
    # Launch the consumer process
    for i in range(number):
        t = multiprocessing.Process(
            target=consumer,args=(queue, results, lock))
        t.daemon=True
        process.append(t)
    
    for i in range(number):
        process[i].start()
    
    p = Path(options.directory)   
    for item  in p.glob('**/*.{}'.format(options.typename)):
        queue.put(str(item))
        
    for i in range(number):
        queue.put(None) 
        
    for i in range(number):
        process[i].join()       
       
    f = open("md5_files.txt",'w')   
    f2 = open("files.txt",'w')   
    for item in dict(results):
        f2.write("{},{}\n".format(item,results[item]))
        if len(results[item]) > 1:
            f.write("{},{}\n".format(item,results[item]))

演示

#!python
$ python3 check_md5.py /home/andrew/code/paper
Same md5 ['2018.01.07-19.38.15_0.9999967.jpg'] 2018.01.07-19.38.15_0.99999679.jpg
$ cat md5_files.txt 
43c5a6e1dcf79d095e97ce63885c5cd7,['2018.01.07-19.38.15_0.9999967.jpg', '2018.01.07-19.38.15_0.99999679.jpg']
andrew@andrew-PowerEdge-T630:~/code/mobile_data/tools$

注意梳虽,求MD5值依賴data_common.py

上面使用的多進(jìn)程屬于python高性能的內(nèi)容,如需想深入了解可以參考書籍 灾茁。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末窜觉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子北专,更是在濱河造成了極大的恐慌禀挫,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拓颓,死亡現(xiàn)場離奇詭異语婴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)驶睦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進(jìn)店門砰左,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人场航,你說我怎么就攤上這事缠导。” “怎么了溉痢?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵僻造,是天一觀的道長憋他。 經(jīng)常有香客問我,道長嫡意,這世上最難降的妖魔是什么举瑰? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮蔬螟,結(jié)果婚禮上此迅,老公的妹妹穿的比我還像新娘。我一直安慰自己旧巾,他們只是感情好耸序,可當(dāng)我...
    茶點故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鲁猩,像睡著了一般坎怪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上廓握,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天搅窿,我揣著相機(jī)與錄音,去河邊找鬼隙券。 笑死男应,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的娱仔。 我是一名探鬼主播沐飘,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼牲迫!你這毒婦竟也來了耐朴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤盹憎,失蹤者是張志新(化名)和其女友劉穎筛峭,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陪每,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡影晓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了奶稠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片俯艰。...
    茶點故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡捡遍,死狀恐怖锌订,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情画株,我是刑警寧澤辆飘,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布啦辐,位于F島的核電站,受9級特大地震影響蜈项,放射性物質(zhì)發(fā)生泄漏芹关。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一紧卒、第九天 我趴在偏房一處隱蔽的房頂上張望侥衬。 院中可真熱鬧,春花似錦跑芳、人聲如沸轴总。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽怀樟。三九已至,卻和暖如春盆佣,著一層夾襖步出監(jiān)牢的瞬間往堡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工共耍, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留虑灰,地道東北人。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓征堪,卻偏偏與公主長得像瘩缆,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子佃蚜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容