?????:md5值是測序文件或者其它文件檢驗傳輸前后數(shù)據(jù)是否完整的重要指標(biāo)
現(xiàn)以從NCBI下載的數(shù)據(jù)集為例說明
-
下載完成后會有下述文件
image.png
文件中有md5checksums.txt 為對應(yīng)原始的md5值
$ cat md5checksums.txt
41b9c2fabe7ff8a07ea90d8a44762cfc ./GCA_010614865.1_ASM1061486v1_assembly_report.txt
cbb41b998a6f787dcf2e901b2b8a75a7 ./GCA_010614865.1_ASM1061486v1_assembly_stats.txt
ba9347531cb06c0eecac9b27f0e86668 ./GCA_010614865.1_ASM1061486v1_genomic.fna.gz
f53d37be53acf20f5260602109629965 ./GCA_010614865.1_ASM1061486v1_genomic.gbff.gz
ccaf29fa415387ec51c7dfde3a0b8aba ./GCA_010614865.1_ASM1061486v1_genomic_gaps.txt.gz
f30b503a02eb9663db898c7f3dfb7c83 ./GCA_010614865.1_ASM1061486v1_rm.out.gz
e5281c109653d42ec9e985948ebd6ff6 ./GCA_010614865.1_ASM1061486v1_rm.run
2e240f0efbbc3a123d87675f4fadb93e ./GCA_010614865.1_ASM1061486v1_wgsmaster.gbff.gz
7e7ff6850a5e44f97647742785e2d246 ./annotation_hashes.txt
eb4c13bd5287cd90a3b3a0b4045a9271 ./GCA_010614865.1_ASM1061486v1_feature_count.txt.gz
- 在Linux系統(tǒng)下, 自帶有md5sum這個工具,在命令行終端可以直接調(diào)用
md5sum
$ md5sum --help
用法:md5sum [選項]... [文件]...
顯示或檢查 MD5(128-bit) 校驗和。
若沒有文件選項,或者文件處為"-"掩驱,則從標(biāo)準(zhǔn)輸入讀取逝钥。
-b, --binary 以二進制模式讀取
-c, --check 從文件中讀取MD5 的校驗值并予以檢查
-t, --text 以純文本模式讀取(默認)
Note: There is no difference between binary and text mode option on GNU system.
以下三個選項在進行校驗時非常有用:
--quiet 不為校驗成功的文件輸出OK
--status 不輸出任何內(nèi)容,使用退出狀態(tài)號顯示成功
-w, --warn 對格式不準(zhǔn)確的校驗和行進行警告
--help 顯示此幫助信息并退出
--version 顯示版本信息并退出
校驗和會按照RFC 1321 規(guī)范生成。當(dāng)進行檢查時蚌本,給出的輸入格式應(yīng)該和程序的輸出
樣板格式相同算途。默認的輸出模式時輸出一行校驗和的校驗結(jié)果塞耕,并有一個字符來
表示文件類型("*"代表二進制," "代表純文本)嘴瓤,并同時顯示每個文件的名稱扫外。
請向bug-coreutils@gnu.org 報告md5sum 的錯誤
GNU coreutils 項目主頁:<http://www.gnu.org/software/coreutils/>
GNU 軟件一般性幫助:<http://www.gnu.org/gethelp/>
請向<http://translationproject.org/team/zh_CN.html> 報告md5sum 的翻譯錯誤
要獲取完整文檔,請運行:info coreutils 'md5sum invocation'
- 檢驗傳輸后得到的文件的md5值是否和源文件的md5值一致
$ md5sum ./GCA_010614865.1_ASM1061486v1_genomic.gbff.gz
f53d37be53acf20f5260602109629965 ./GCA_010614865.1_ASM1061486v1_genomic.gbff.gz
md5sum annotation_hashes.txt
84dfceef9612124152a24231102edc1e annotation_hashes.txt
此例發(fā)現(xiàn) annotation_hashes.txt的md5值和原始的不一致
特別注意廓脆,每一次上傳或下載文件都會得到對應(yīng)的md5值筛谚,即文件從A機器到B機器然后到C機器文件得到的md5值都不同,只有在C機器中用md5.txt
的md5值和C機器用md5sum
檢測得到的md5值
進行校驗狞贱,吻合則傳輸過程無損
- 批量校驗可在
md5.txt
的當(dāng)前目錄下使用md5sum -c md5.txt
$ md5sum -c md5.txt
Clean/AA-410_1.fq.gz: 確定
Clean/AA-410_2.fq.gz: 確定
Clean/AA-408_1.fq.gz: 確定
Clean/AA-408_2.fq.gz: 確定
Clean/AA-409_1.fq.gz: 確定
Clean/AA-409_2.fq.gz: 確定