Python遞歸搜索目錄下的文件并去重

非常簡(jiǎn)單的程序，只是考慮的比較多缴啡，寫的比較多=-=

設(shè)計(jì)思路

灰常簡(jiǎn)單

遞歸搜索目錄中的所有文件壁晒。
計(jì)算這些文件的MD5并存儲(chǔ)在“Dict”中。
如果“Dict”有此MD5值业栅，則將文件移動(dòng)到默認(rèn)文件夾(“./ Duplicates”)并重命名秒咐。

考慮到的小細(xì)節(jié)

大文件以塊的形式讀取。
重復(fù)文件移動(dòng)名稱較長(zhǎng)的文件碘裕。
重命名時(shí)携取，在原來的名稱中添加一個(gè)數(shù)字。
不要更改后綴名(如果有)

The end =-=

代碼

程序和說明已經(jīng)公布在github
https://github.com/atlasbioinfo/SearchDuplicateFiles

from os import walk,path,mkdir
from hashlib import md5
from shutil import copy,move

def getMd5(fname):
    m = md5()
    with open(fname,'rb') as fobj:
        while True:
            data = fobj.read(4096)
            if not data:
                break
            m.update(data)

    return m.hexdigest()

if __name__ == '__main__':
    #默認(rèn)把重復(fù)文件移動(dòng)到這個(gè)文件夾帮孔，可以自定義名字
    #Default to move the duplicate file to this folder and can customize the name
    dupDir="Duplications"
    mkdir(dupDir)
    mdFile={}
    fileName={}
    for fpath,dirs,fs in walk('.'):
        for f in fs:
            tfile=path.join(fpath,f)
            if (path.samefile(fpath,dupDir)):
                continue
            tMD=getMd5(tfile)
            if (tMD in mdFile):
                mdFile[tMD]+=1
                if (len(f)>len(path.basename(fileName[tMD]))):
                    move(tfile,path.join(dupDir,path.splitext(f)[0]+str(mdFile[tMD])+path.splitext(f)[1]))
                    
                else:
                    tname=path.basename(fileName[tMD])
                    move(fileName[tMD],path.join(dupDir,path.splitext(tname)[0]+str(mdFile[tMD])+path.splitext(tname)[1]))
                    fileName[tMD]=tfile
                    
            else:
                mdFile[tMD]=1
                fileName[tMD]=tfile

舉個(gè)例子Example

ORI:
    temp.py
    temp_copy.py
    temp_2.py

After deduplicate......

Retain:
    temp.py
Moved:
    temp_copy2.py
    temp_23.py

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末雷滋，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子文兢，更是在濱河造成了極大的恐慌晤斩，老刑警劉巖，帶你破解...
沈念sama閱讀 218,036評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件姆坚，死亡現(xiàn)場(chǎng)離奇詭異澳泵，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)兼呵，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門兔辅，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人击喂，你說我怎么就攤上這事维苔。” “怎么了懂昂？”我有些...
開封第一講書人閱讀 164,411評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蕉鸳，是天一觀的道長(zhǎng)。經(jīng)常有香客問我忍法，道長(zhǎng)潮尝，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,622評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任饿序，我火速辦了婚禮勉失，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘原探。我一直安慰自己乱凿，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,661評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布咽弦。她就那樣靜靜地躺著徒蟆，像睡著了一般。火紅的嫁衣襯著肌膚如雪型型。梳的紋絲不亂的頭發(fā)上段审，一...
開封第一講書人閱讀 51,521評(píng)論 1贊 304
城市分裂傳說
那天，我揣著相機(jī)與錄音闹蒜，去河邊找鬼寺枉。笑死，一個(gè)胖子當(dāng)著我的面吹牛绷落，可吹牛的內(nèi)容都是我干的姥闪。我是一名探鬼主播，決...
沈念sama閱讀 40,288評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼砌烁，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼筐喳！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起函喉，我...
開封第一講書人閱讀 39,200評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤避归，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后函似，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體槐脏，經(jīng)...
沈念sama閱讀 45,644評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,837評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年撇寞，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了顿天。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,953評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蔑担，死狀恐怖牌废，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情啤握，我是刑警寧澤鸟缕，帶...
沈念sama閱讀 35,673評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響懂从，放射性物質(zhì)發(fā)生泄漏授段。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,281評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一番甩、第九天我趴在偏房一處隱蔽的房頂上張望侵贵。院中可真熱鬧，春花似錦缘薛、人聲如沸窍育。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評(píng)論 0贊 22
一樁弒父案宴胧，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)漱抓。三九已至，卻和暖如春恕齐，著一層夾襖步出監(jiān)牢的瞬間乞娄，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,011評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工檐迟，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留补胚，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,119評(píng)論 3贊 370
代替公主和親
正文我出身青樓追迟，卻偏偏與公主長(zhǎng)得像溶其，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子敦间，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,901評(píng)論 2贊 355

Python遞歸搜索目錄下的文件并去重

設(shè)計(jì)思路

考慮到的小細(xì)節(jié)

代碼

舉個(gè)例子Example

推薦閱讀更多精彩內(nèi)容