一竿痰、基本用法
使用detect
函數(shù)
輸入字符串脆粥,輸出檢測(cè)的編碼和置信度。
import urllib
rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
import chardet
chardet.detect(rawdata)
[out] {'encoding': 'EUC-JP', 'confidence': 0.99}
二影涉、高級(jí)用法
處理大量文本冠绢,增量式的檢測(cè)。
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://yahoo.co.jp/')
detector = UniversalDetector()
for line in usock.readlines():
detector.feed(line)
if detector.done: break
detector.close()
usock.close()
print detector.result
[out] {'encoding': 'EUC-JP', 'confidence': 0.99}
使用UniversalDetector()
檢測(cè)器常潮,.feed()
添加檢測(cè)文本弟胀,增量檢測(cè)的時(shí)候,如果達(dá)到最小閾值喊式,則.done
的值為True
孵户。
使用.close()
關(guān)閉,.result
為結(jié)果岔留。
import glob
from chardet.universaldetector import UniversalDetector
detector = UniversalDetector()
for filename in glob.glob('*.xml'):
print filename.ljust(60),
detector.reset()
for line in file(filename, 'rb'):
detector.feed(line)
if detector.done: break
detector.close()
print detector.result
.reset()
為UniversalDetector()
檢測(cè)器的重用夏哭。