python2.7中 str 和 unicode 的轉(zhuǎn)換問題

參考資料：

python2.7 unicode 基礎(chǔ)知識(shí)講解官方文檔?

python 3 uncode基礎(chǔ)知識(shí)講解

python2 支持的所有編碼格式

python3 io 視頻教程

python2.7:str unicode 詳解

緣起：

python2.7 使用spacy進(jìn)行分句時(shí)植康，spacy的接口要求輸入字符串格式是unicode蹦掐，我的輸入是str县貌，程序運(yùn)行時(shí)報(bào)出編碼錯(cuò)誤

總結(jié)：

先說結(jié)論碗誉， python2.7? 中 str 類型和 unicode 類型是兩碼事孝凌，str 類型要轉(zhuǎn)換成unicode

需要知道str類型的編碼方式然后? ?string.decode("編碼類型")

比如讀進(jìn)來 "hello world"的編碼方式是utf-8

"hello world".decode("utf-8")? ?# 現(xiàn)在的類型就是unicode

python 3 中 str 類型就是 unicode類型，兩者等價(jià).

"hello world" == u"hello world"? ?==> True

"hello world".encode("utf-8")? ==> b"hello world"? ? # 內(nèi)存中二進(jìn)制的表示

字符到數(shù)字的編碼（ascii郊供、unicode）

ascii 是對(duì)常用的美語中常見字符到數(shù)字的映射（abcd等到 0-255之間數(shù)字的一個(gè)對(duì)應(yīng)關(guān)系）

ascii是計(jì)算機(jī)出現(xiàn)后止后，人們最開始的編碼方式，unicode是對(duì)ascii的拓展葛虐。

unicode 則是對(duì)世界上所有語言的基本符號(hào)（比如中文中的 “中”“國(guó)”）到數(shù)字的一個(gè)映射胎源，雖然規(guī)模更大，但原理和ascii是一樣的屿脐，都是將語言中的基本組成單元字符（"a", "中"等）映射到數(shù)字（ascii是直接用十進(jìn)制數(shù)字表示涕蚤，unicode 則是用16進(jìn)制數(shù)字表示）

unicode到內(nèi)存中（010111...）的編碼

這是一個(gè)unicode數(shù)字串到內(nèi)存中映射的過程宪卿，有多種做法。

uncode?字符串是一串?dāng)?shù)字万栅，需要將unicode字符串以一串字節(jié)的形式存儲(chǔ)在內(nèi)存中佑钾，這個(gè)轉(zhuǎn)換規(guī)則稱為編碼（比如，ascii烦粒，Latin-1,?utf-8, utf-16, gbk）休溶。python2中默認(rèn)的到內(nèi)存中的編碼方式是ascii， python3 則是utf-8撒遣。編碼到內(nèi)存中的都是二進(jìn)制的形式邮偎。

python2.7中編碼總是出現(xiàn)問題的原因

python2中，從文件讀進(jìn)來的字符串义黎，或者我們自己輸入的字符串都是內(nèi)存中對(duì)應(yīng)一定的編碼（比如ascii禾进，utf-8）后的str類型，str.decode("utf-8")之后才是unicode類型廉涕， unicode又可以編碼成各種類型泻云。

python3 中，文件讀進(jìn)來和輸入的字符串一開始都是unicode類型的字符串狐蜕，具體在內(nèi)存中的編碼方式宠纯，由程序員自己設(shè)置，當(dāng)然默認(rèn)是utf-8編碼层释。這種處理方式更符合人的直覺婆瓜。

理清楚了這個(gè)過程處理python2、3中的編碼問題就不是問題了贡羔。

最后編輯于：2018.11.21 13:28:35

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末廉白，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子乖寒，更是在濱河造成了極大的恐慌猴蹂，老刑警劉巖，帶你破解...
沈念sama閱讀 221,576評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件楣嘁，死亡現(xiàn)場(chǎng)離奇詭異磅轻，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)逐虚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,515評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門聋溜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人痊班，你說我怎么就攤上這事勤婚。” “怎么了涤伐？”我有些...
開封第一講書人閱讀 168,017評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵馒胆，是天一觀的道長(zhǎng)缨称。經(jīng)常有香客問我，道長(zhǎng)祝迂，這世上最難降的妖魔是什么睦尽？我笑而不...
開封第一講書人閱讀 59,626評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮型雳，結(jié)果婚禮上当凡，老公的妹妹穿的比我還像新娘。我一直安慰自己纠俭，他們只是感情好沿量，可當(dāng)我...
茶點(diǎn)故事閱讀 68,625評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著冤荆，像睡著了一般朴则。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上钓简，一...
開封第一講書人閱讀 52,255評(píng)論 1贊 308
城市分裂傳說
那天乌妒，我揣著相機(jī)與錄音，去河邊找鬼外邓。笑死撤蚊，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的损话。我是一名探鬼主播侦啸，決...
沈念sama閱讀 40,825評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼丧枪！你這毒婦竟也來了匹中？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,729評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤豪诲，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后挂绰，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屎篱，經(jīng)...
沈念sama閱讀 46,271評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,363評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年葵蒂，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了交播。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,498評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡践付，死狀恐怖秦士，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情永高，我是刑警寧澤隧土，帶...
沈念sama閱讀 36,183評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布提针，位于F島的核電站，受9級(jí)特大地震影響曹傀，放射性物質(zhì)發(fā)生泄漏辐脖。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,867評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一皆愉、第九天我趴在偏房一處隱蔽的房頂上張望嗜价。院中可真熱鬧，春花似錦幕庐、人聲如沸久锥。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,338評(píng)論 0贊 24
一樁弒父案异剥，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽瑟由。三九已至，卻和暖如春届吁，著一層夾襖步出監(jiān)牢的瞬間错妖，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,458評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工疚沐，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留暂氯，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,906評(píng)論 3贊 376
代替公主和親
正文我出身青樓亮蛔，卻偏偏與公主長(zhǎng)得像痴施，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子究流，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,507評(píng)論 2贊 359