Android 根據(jù)文件頭獲取準(zhǔn)確file類型

最近在項(xiàng)目中需要判斷從網(wǎng)絡(luò)上下載下來(lái)的文件類型堵未,方法有 :
1、根據(jù)header中content-type字段類型來(lái)指定下載的文件類型赂苗,缺點(diǎn):如果是未知服務(wù)器無(wú)法保證字段準(zhǔn)確性愉耙;
2、根據(jù)文件后綴名稱拌滋,缺點(diǎn):還不夠嚴(yán)格(有可能手動(dòng)修改后綴名稱)朴沿,
3、使用根據(jù)讀取頭文件部分內(nèi)容與標(biāo)準(zhǔn)格式文件對(duì)比,即可準(zhǔn)確判斷文件類型赌渣,這里可以讀取3個(gè)字節(jié)魏铅,或者10個(gè)字節(jié),缺點(diǎn):文件類型可能不全

根據(jù)文件頭獲取準(zhǔn)確file類型的代碼具體如下:

import android.annotation.SuppressLint;
import android.content.Context;
import android.text.TextUtils;
import com.huawei.hms.framework.common.IoUtils;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.Iterator;
import java.util.Properties;

public class FileTypeUtils {

protected static final String MIMETYPES_PROPERTIES = "FileTypes.properties";
protected static Properties mFileTypes;
private static FileTypeUtils fileTypeUtils;

private FileTypeUtils(Context context) {
    try {
        mFileTypes = new Properties();
        mFileTypes.load(context.getAssets().open(MIMETYPES_PROPERTIES));
    } catch (Exception e) {
        e.printStackTrace();
    }
}

public static FileTypeUtils getInstance(Context appContext) {
    if (fileTypeUtils == null) {
        fileTypeUtils = new FileTypeUtils(appContext);
    }
    return fileTypeUtils;
}

public String getFileType(File file) {
    if (file == null) {
        return null;
    }
    if (!file.exists() || file.length() < 11) {
        return null;
    }
    String header = get10ByteHeader(file);
    String fileSuffix = mFileTypes.getProperty(header);
    /*
     * 優(yōu)化處理:在不同的設(shè)備上同樣類型的文件坚芜,文件頭前面內(nèi)容未必一致沦零,可能只有前幾個(gè)一致,后面就不同了
     * (例如:jpg類型文件货岭,在不同手機(jī)上路操,lennovo k900前10個(gè)是一致的,但是MI3只有前5個(gè)字符一致千贯,后面是不一樣的屯仗,所有一些情況進(jìn)行特殊處理)當(dāng)整個(gè)頭文件失敗后,
     * 在進(jìn)行前5個(gè)字符截取對(duì)比處理搔谴,優(yōu)化具體如下:
     */
    if (TextUtils.isEmpty(fileSuffix)) {

        Iterator keyList = mFileTypes.keySet().iterator();
        //并不是所有的文件格式前10 byte(jpg)都一致魁袜,前五個(gè)byte一致即可
        String key, keySearchPrefix = header.substring(0, 5);
        while (keyList.hasNext()) {
            key = (String) keyList.next();
            if (key.contains(keySearchPrefix)) {
                fileSuffix = mFileTypes.getProperty(key);
                break;
            }
        }
    }

    //前5個(gè)字符截取對(duì)比處理沒(méi)有找到,則進(jìn)行特殊處理
    if (TextUtils.isEmpty(fileSuffix)) {
        header = get3ByteHeader(file);
        fileSuffix = mFileTypes.getProperty(header);
    }

    return fileSuffix;
}

public String getFileType(byte[] bytes) {
    if (bytes == null || bytes.length < 11) {
        return null;
    }

    String header = bytesToHexString(subarray(bytes, 0, 10));
    String fileSuffix = mFileTypes.getProperty(header);
    /*
     * 優(yōu)化處理:在不同的設(shè)備上同樣類型的文件敦第,文件頭前面內(nèi)容未必一致峰弹,可能只有前幾個(gè)一致,后面就不同了
     * (例如:jpg類型文件芜果,在不同手機(jī)上鞠呈,lennovo k900前10個(gè)是一致的,但是MI3只有前5個(gè)字符一致右钾,后面是不一樣的蚁吝,所有一些情況進(jìn)行特殊處理)當(dāng)整個(gè)頭文件失敗后,
     * 在進(jìn)行前5個(gè)字符截取對(duì)比處理舀射,優(yōu)化具體如下:
     */
    if (TextUtils.isEmpty(fileSuffix)) {
        Iterator keyList = mFileTypes.keySet().iterator();
        //并不是所有的文件格式前10 byte(jpg)都一致窘茁,前五個(gè)byte一致即可
        String key, keySearchPrefix = header.substring(0, 5);
        while (keyList.hasNext()) {
            key = (String) keyList.next();
            if (key.contains(keySearchPrefix)) {
                fileSuffix = mFileTypes.getProperty(key);
                break;
            }
        }
    }

    //前5個(gè)字符截取對(duì)比處理沒(méi)有找到,則進(jìn)行特殊處理
    if (TextUtils.isEmpty(fileSuffix)) {
        header = bytesToHexString(subarray(bytes, 0, 3));
        fileSuffix = mFileTypes.getProperty(header);
    }

    return fileSuffix;

}

public byte[] subarray(final byte[] array, int startIndexInclusive, int endIndexExclusive) {
    if (array == null) {
        return null;
    }
    if (startIndexInclusive < 0) {
        startIndexInclusive = 0;
    }
    if (endIndexExclusive > array.length) {
        endIndexExclusive = array.length;
    }
    final int newSize = endIndexExclusive - startIndexInclusive;
    if (newSize <= 0) {
        return new byte[0];
    }

    final byte[] subarray = new byte[newSize];
    System.arraycopy(array, startIndexInclusive, subarray, 0, newSize);
    return subarray;
}

@SuppressWarnings("deprecation")
private String get10ByteHeader(File file) {
    InputStream input = null;
    String value = null;
    try {
        input = new FileInputStream(file);
        byte[] b = new byte[10];
        input.read(b, 0, b.length);
        value = bytesToHexString(b);
    } catch (Exception e) {
    } finally {
        IoUtils.closeSecure(input);
    }
    return value;
}

@SuppressWarnings("deprecation")
private String get3ByteHeader(File file) {
    InputStream input = null;
    String value = null;
    try {
        input = new FileInputStream(file);
        byte[] b = new byte[3];
        input.read(b, 0, b.length);
        value = bytesToHexString(b);
    } catch (Exception e) {
    } finally {
        IoUtils.closeSecure(input);
    }
    return value;
}

private String bytesToHexString(byte[] src) {
    StringBuilder stringBuilder = new StringBuilder();
    if (src == null || src.length <= 0) {
        return null;
    }
    for (int i = 0; i < src.length; i++) {
        int v = src[i] & 0xFF;
        String hv = Integer.toHexString(v);
        if (hv.length() < 2) {
            stringBuilder.append(0);
        }
        stringBuilder.append(hv);
    }
    return stringBuilder.toString();
}

}

在assets資源目錄下新建properties文件脆烟,命名為:“FileTypes.properties”

# 常見(jiàn)文件頭信息(該文件中的文件頭需要為大寫)

#JPEG (jpg)
FFD8FFE000104A464946=jpg
#PNG (png)
89504E470D0A1A0A0000=png
#GIF (gif)
47494638396126026F01=gif
#TIFF (tif)
49492A00227105008037=tif
#16色位圖(bmp)
424D228C010000000000=bmp
#24位位圖(bmp)
424D8240090000000000=bmp
#256色位圖(bmp)
424D8E1B030000000000=bmp
#CAD (dwg)
41433130313500000000=dwg
#HTML (html)
3C21444F435459504520=html
#HTM (htm)
3C21646F637479706520=htm
#css
48544D4C207B0D0A0942=css
#js
696B2E71623D696B2E71=js
#Rich Text Format (rtf)
7B5C727466315C616E73=rtf
#Photoshop (psd)
38425053000100000000=psd
#Email [Outlook Express 6] (eml)
46726F6D3A203D3F6762=eml
#MS Excel 注意:word山林、msi 和 excel的文件頭一樣
D0CF11E0A1B11AE10000=doc
#Visio 繪圖
D0CF11E0A1B11AE10000=vsd
#MS Access (mdb)
5374616E64617264204A=mdb
252150532D41646F6265=ps
#Adobe Acrobat (pdf)
255044462D312E350D0A=pdf
#rmvb/rm相同
2E524D46000000120001=rmvb
#flv與f4v相同
464C5601050000000900=flv
00000020667479706D70=mp4
49443303000000002176=mp3
000001BA210001000180=mpg
#wmv與asf相同
3026B2758E66CF11A6D9=wmv
#Wave (wav)
52494646E27807005741=wav
52494646D07D60074156=avi
#MIDI (mid)
4D546864000000060001=mid
504B0304140000000800=zip
526172211A0700CF9073=rar
235468697320636F6E66=ini
504B03040A0000000000=jar
#可執(zhí)行文件
4D5A9000030000000400=exe
#jsp文件
3C25402070616765206C=jsp
#MF文件
4D616E69666573742D56=mf
#xml文件
3C3F786D6C2076657273=xml
#sql文件
494E5345525420494E54=sql
#java文件
7061636B616765207765=java
#bat文件
406563686F206F66660D=bat
#gz文件
1F8B0800000000000000=gz
#bat文件
6C6F67346A2E726F6F74=properties
CAFEBABE0000002E0041=class
49545346030000006000=chm
04000000010000001300=mxp
#docx文件
504B0304140006000800=docx
#WPS文字wps、表格et邢羔、演示dps都是一樣的
D0CF11E0A1B11AE10000=wps
6431303A637265617465=torrent

#Quicktime (mov)
6D6F6F76=mov
#WordPerfect (wpd)
FF575043=wpd
#Outlook Express (dbx)
CFAD12FEC5FD746F=dbx
#Outlook (pst)
2142444E=pst
#Quicken (qdf)
AC9EBD8F=qdf
#Windows Password (pwl)
E3828596=pwl
#Real Audio (ram)
2E7261FD=ram

#五字節(jié)文件頭對(duì)應(yīng)關(guān)系

255044=PDF
526563=EML
D0CF11=PPT
4D5AEE=COM
E93B03=COM
4D5A90=EXE
424D3E=BMP
49492A=TIF
384250=PSD
C5D0D3=EPS
0A0501=PCS
89504E=PNG
060500=RAW
000002=TGA
60EA27=ARJ
526172=RAR
504B03=ZIP
495363=CAB
1F9D8C=Z
524946=WAV
435753=SWF
3026B2=WMV
3026B2=WMA
2E524D=RM
00000F=MOV
000077=MOV
000001=MPA
FFFB50=MP3
234558=m3u
3C2144=HTM
FFFE3C=XSL
3C3F78=XML
3C3F78=MSC
4C0000=LNK
495453=CHM
805343=scm
D0CF11=XLS
31BE00=WRI
00FFFF=MDF
4D4544=MDS
5B436C=CCD
00FFFF=IMG
FFFFFF=SUB
17A150=PCB
2A5052=ECO
526563=PPC
000100=DDB
42494C=LDB
2A7665=SCH
2A2420=LIB
434841=FNT
7B5C72=RTF
7B5072=GTD
234445=PRG
000007=PJT
202020=BAS
000002=TAG
4D5A90=dll
4D5A90=OCX
4D5A50=DPL
3F5F03=HLP
4D5A90=OLB
4D5A90=IMM
4D5A90=IME
3F5F03=LHP
C22020=NLS
5B5769=CPX
4D5A16=DRV
5B4144=PBK
24536F=PLL
4E4553=NES
87F53E=GBC
00FFFF=SMD
584245=XBE
005001=XMV
000100=TTF
484802=PDG
000100=tst
414331=dwg
D0CF11=max

#特殊情況下的文件頭

#images
FFD8FF=jpg
89504E47=png
47494638=gif
49492A00=tif
424D=bmp
#CAD
41433130=dwg
38425053=psd
7B5C727466=rtf
3C3F786D6C=xml
68746D6C3E=html
44656C69766572792D646174653A=eml
D0CF11E0=doc
5374616E64617264204A=mdb
252150532D41646F6265=ps
255044462D312E=pdf
504B0304=zip
52617221=rar
57415645=wav
41564920=avi
2E524D46=rm
000001BA=mpg
000001B3=mpg
6D6F6F76=mov
3026B2758E66CF11=asf
4D546864=mid
1F8B08=gz
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末驼抹,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子张抄,更是在濱河造成了極大的恐慌砂蔽,老刑警劉巖洼怔,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件署惯,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡镣隶,警方通過(guò)查閱死者的電腦和手機(jī)极谊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門诡右,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人轻猖,你說(shuō)我怎么就攤上這事帆吻。” “怎么了咙边?”我有些...
    開(kāi)封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵猜煮,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我败许,道長(zhǎng)王带,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任市殷,我火速辦了婚禮愕撰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘醋寝。我一直安慰自己搞挣,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布音羞。 她就那樣靜靜地躺著囱桨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嗅绰。 梳的紋絲不亂的頭發(fā)上蝇摸,一...
    開(kāi)封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音办陷,去河邊找鬼貌夕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛民镜,可吹牛的內(nèi)容都是我干的啡专。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼制圈,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼们童!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起鲸鹦,我...
    開(kāi)封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤慧库,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后馋嗜,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體齐板,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了甘磨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片橡羞。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖济舆,靈堂內(nèi)的尸體忽然破棺而出卿泽,到底是詐尸還是另有隱情,我是刑警寧澤滋觉,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布签夭,位于F島的核電站,受9級(jí)特大地震影響椎侠,放射性物質(zhì)發(fā)生泄漏覆致。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一肺蔚、第九天 我趴在偏房一處隱蔽的房頂上張望煌妈。 院中可真熱鬧,春花似錦宣羊、人聲如沸璧诵。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)之宿。三九已至,卻和暖如春苛坚,著一層夾襖步出監(jiān)牢的瞬間比被,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工泼舱, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留等缀,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓娇昙,卻偏偏與公主長(zhǎng)得像尺迂,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子冒掌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容