Python-chardet 編碼檢測(cè)

1.使用chardet

import chardet

import re

chardetList =  dir(chardet) 
chlist = []
for x in chardetList:
    if (re.match(r'[a-zA-Z]{0,100}$',x)):
        chlist.append(x)

# print('chardet屬性:',chlist)
['UniversalDetector', 'VERSION', 'chardistribution', 'charsetgroupprober', 'charsetprober', 'codingstatemachine', 'compat', 'detect', 'enums', 'escprober', 'escsm', 'eucjpprober', 'euckrfreq', 'euckrprober', 'euctwfreq', 'euctwprober', 'hebrewprober', 'jisfreq', 'jpcntx', 'langbulgarianmodel', 'langcyrillicmodel', 'langgreekmodel', 'langhebrewmodel', 'langthaimodel', 'langturkishmodel', 'mbcharsetprober', 'mbcsgroupprober', 'mbcssm', 'sbcharsetprober', 'sbcsgroupprober', 'sjisprober', 'universaldetector', 'version']'''

當(dāng)我們拿到一個(gè)bytes時(shí)闷畸,就可以對(duì)其檢測(cè)編碼播歼。用chardet檢測(cè)編碼懊纳,只需要一行代碼:

r1 = chardet.detect(b'Hello,world!')
print('檢測(cè)編碼1:',r1)
{'encoding': 'ascii',#編碼格式
'confidence': 1.0, #檢測(cè)的概率1.0(即100%)
'language': ''
}

我們來(lái)試試檢測(cè)GBK編碼的中文:

data = '大風(fēng)起兮,云飛揚(yáng)'.encode('gbk') 
data = '離離原上草乎完,一歲一枯榮'.encode('gbk') 
r2 = chardet.detect(data)
print('檢測(cè)編碼2-GBK編碼:',r2)
    {
    'encoding': 'IBM855',
    'confidence': 0.5266078104422526,
    'language': 'Russian'
    }
data1 = '大廈將傾熏兄,誰(shuí)堪棟梁'.encode('utf-8')
r3 = chardet.detect(data1)
print('檢測(cè)編碼2-UTF-8編碼:',r3)

日文檢測(cè)

data2 = '最新の主要ニュース'.encode('euc-jp') 
r4 = chardet.detect(data2)
print('檢測(cè)編碼2-日文編碼:',r4)

詳細(xì)文件移步Python學(xué)習(xí)筆記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市树姨,隨后出現(xiàn)的幾起案子摩桶,更是在濱河造成了極大的恐慌,老刑警劉巖娃弓,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件典格,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡台丛,警方通過(guò)查閱死者的電腦和手機(jī)耍缴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)挽霉,“玉大人防嗡,你說(shuō)我怎么就攤上這事∠揽玻” “怎么了蚁趁?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)实胸。 經(jīng)常有香客問我他嫡,道長(zhǎng)番官,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任钢属,我火速辦了婚禮徘熔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘淆党。我一直安慰自己酷师,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布染乌。 她就那樣靜靜地躺著山孔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪荷憋。 梳的紋絲不亂的頭發(fā)上台颠,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音台谊,去河邊找鬼蓉媳。 笑死譬挚,一個(gè)胖子當(dāng)著我的面吹牛锅铅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播减宣,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼盐须,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了漆腌?” 一聲冷哼從身側(cè)響起贼邓,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎闷尿,沒想到半個(gè)月后塑径,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡填具,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了劳景。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片誉简。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡盟广,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出筋量,到底是詐尸還是另有隱情烹吵,我是刑警寧澤碉熄,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站肋拔,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏只损。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一跃惫、第九天 我趴在偏房一處隱蔽的房頂上張望叮叹。 院中可真熱鬧,春花似錦爆存、人聲如沸蛉顽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至曾棕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間翘地,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工衙耕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留勺远,地道東北人橙喘。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓胶逢,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親宪塔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 字符集和編碼簡(jiǎn)介 在編程中常潮却睿可以見到各種字符集和編碼,包括ASCII,MBCS,Unicode等字符集身诺。確切的說(shuō)...
    蘭山小亭閱讀 8,461評(píng)論 0 13
  • 引言 在這里我假設(shè)你已經(jīng)看完了一篇Python教程蜜托,基本熟悉了Python的結(jié)構(gòu)和語(yǔ)法霉赡,在命令行下的Python互...
    Programmer客棧閱讀 65,129評(píng)論 0 17
  • Python 二三事 面向初學(xué)者介紹Python相關(guān)的一些工具,以及可能遇到的常見問題穴亏。 最后更新 2013.5....
    hzyido閱讀 67,746評(píng)論 2 42
  • 引言 在這里我假設(shè)你已經(jīng)看完了一篇Python教程,基本熟悉了Python的結(jié)構(gòu)和語(yǔ)法棠涮,在命令行下的Python互...
    python瑟維爾閱讀 285評(píng)論 0 2
  • (這是很早之前寫的但內(nèi)容沒有太過(guò)時(shí)刺覆,發(fā)到這邊補(bǔ)全一下...)面向初學(xué)者介紹Python相關(guān)的一些工具严肪,以及可能遇到...
    jagttt閱讀 67,263評(píng)論 3 44