轉換簡述
字符串根據(jù)utf8編碼encode為字節(jié)碼(unicode),字節(jié)(unicode)解碼decode對應的字符串嚣州。
有一個UTF-8編碼的文件,需要轉碼成GBK編碼的文件:decode(‘utf-8’) —> encode(‘gbk’),注意這里文件就是字節(jié)碼
將utf-8轉gbk:decode("utf-8") --> encode("gbk")
unicode 是中間碼。兩種編碼都借由其同规,進行轉換。
unicode 簡介
Unicode是一套編碼規(guī)則窟社。
其優(yōu)點是可以表示所有語言券勺,存儲時定長。
Unicode有許多種編碼灿里,比如說可以通過16個bit或者32個bit來把所有語言統(tǒng)一到一套編碼里关炼。
轉換再述
所以打開文件時,需要了解當前文件的編碼匣吊,然后將其轉為(decode)定長儒拂、統(tǒng)一的unicode 編碼格式,再通過這一中介轉(encode)為其他類型的編碼色鸳。