解決pycharm的爬蟲(chóng)亂碼問(wèn)題(初步了解各種編碼格式)

  • Ascii碼(American Standard Code for Information Interchange,美國(guó)信息互換標(biāo)準(zhǔn)代碼):
    最初計(jì)算機(jī)只在美國(guó)使用時(shí)困鸥,只用8位的字節(jié)來(lái)組合出256(2的8次方)種不同的狀態(tài),把所有的空格姐帚、標(biāo)點(diǎn)符號(hào)衷旅、數(shù)字、大小寫(xiě)字母分別用連續(xù)的字節(jié)狀態(tài)表示课锌,一直編到了第127號(hào)厨内,
  • 拓展字符集:世界各地的都開(kāi)始使用計(jì)算機(jī),一直把序號(hào)編到了最后一個(gè)狀態(tài)255渺贤。從128到255這一頁(yè)的字符集被稱(chēng)"擴(kuò)展字符集"雏胃。
  • GB2312:
    GB2312 是對(duì) ASCII 的中文擴(kuò)展。當(dāng)計(jì)算機(jī)傳入中國(guó)后癣亚,規(guī)定:一個(gè)小于127的字符的意義與原來(lái)相同丑掺,但兩個(gè)大于127的字符連在一起時(shí),就表示一個(gè)漢字述雾,前面的一個(gè)字節(jié)(他稱(chēng)之為高字節(jié))從0xA1用到0xF7街州,后面一個(gè)字節(jié)(低字節(jié))從0xA1到0xFE,這樣我們就可以組合出大約7000多個(gè)簡(jiǎn)體漢字了玻孟。這種方案叫做GB2312唆缴。
  • GBK:
    后來(lái)GB2312方案的漢字不夠用了,干脆不再要求低字節(jié)一定是127號(hào)之后的內(nèi)碼黍翎,只要第一個(gè)字節(jié)是大于127就固定表示這是一個(gè)漢字的開(kāi)始面徽,不管后面跟的是不是擴(kuò)展字符集里的內(nèi)容。擴(kuò)展之后的編碼方案被稱(chēng)為 GBK 標(biāo)準(zhǔn)匣掸,GBK 包括了 GB2312 的所有內(nèi)容趟紊,同時(shí)又增加了近20000個(gè)新的漢字(包括繁體字)和符號(hào)。
  • GB18030:
    后來(lái)又加入了加入了幾千個(gè)少數(shù)民族的字碰酝,拓展成為GB18030
  • UNICODE:但全世界各種編碼方式無(wú)法通行霎匈,于是出現(xiàn)了一種無(wú)視各種地區(qū)編碼的世界統(tǒng)一的編碼方式~Unicode。在Unicode中送爸,一個(gè)字符就是兩個(gè)字節(jié)铛嘱。規(guī)定必須用兩個(gè)字節(jié)暖释,也就是16位來(lái)統(tǒng)一表示所有的字符,對(duì)于ascii里的那些“半角”字符墨吓,UNICODE 包持其原編碼不變球匕,只是將其長(zhǎng)度由原來(lái)的8位擴(kuò)展為16位,而其他文化和語(yǔ)言的字符則全部重新統(tǒng)一編碼帖烘。
  • UTF-8:
    前面介紹的都是字符集亮曹,而UTF-8,UTF-16則是一種編碼規(guī)則。因?yàn)閁nicode字符集都是用兩個(gè)字節(jié)來(lái)存儲(chǔ)的蚓让,所以在傳輸信息的過(guò)程中對(duì)資源浪費(fèi)很大乾忱,就像原來(lái)Ascii碼中的字符只需要一個(gè)字節(jié)來(lái)傳遞。于是出現(xiàn)了UTF-8這種變長(zhǎng)的編碼規(guī)則历极。
    因此UTF-8是基于Unicode的一種編碼規(guī)則窄瘟,因此現(xiàn)在最常用的便是UTF-8編碼方式。

補(bǔ)充一點(diǎn):
1.將字符轉(zhuǎn)換為字節(jié)的方式稱(chēng)為編碼
2.將字節(jié)轉(zhuǎn)換為字符的方式稱(chēng)為解碼


接下來(lái)介紹用pycharm來(lái)寫(xiě)爬蟲(chóng)時(shí)遇到的亂碼問(wèn)題:

首先打開(kāi)file中的setting

再找到Editor中的File Encodings

將其中的GlobalEncoding和Project Encoding改為UTF-8即可趟卸。
為了以防萬(wàn)一蹄葱,也可以將文件的編碼方式也改為utf-8


pycharm右下角可以更改文件的編碼方式
或者在setting中將文件編碼改為utf-8
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市锄列,隨后出現(xiàn)的幾起案子图云,更是在濱河造成了極大的恐慌,老刑警劉巖邻邮,帶你破解...
    沈念sama閱讀 222,590評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件竣况,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡筒严,警方通過(guò)查閱死者的電腦和手機(jī)丹泉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,157評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鸭蛙,“玉大人摹恨,你說(shuō)我怎么就攤上這事∪⑹樱” “怎么了晒哄?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,301評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)肪获。 經(jīng)常有香客問(wèn)我寝凌,道長(zhǎng),這世上最難降的妖魔是什么孝赫? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,078評(píng)論 1 300
  • 正文 為了忘掉前任硫兰,我火速辦了婚禮,結(jié)果婚禮上寒锚,老公的妹妹穿的比我還像新娘劫映。我一直安慰自己,他們只是感情好刹前,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,082評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布泳赋。 她就那樣靜靜地躺著,像睡著了一般喇喉。 火紅的嫁衣襯著肌膚如雪祖今。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,682評(píng)論 1 312
  • 那天拣技,我揣著相機(jī)與錄音千诬,去河邊找鬼。 笑死膏斤,一個(gè)胖子當(dāng)著我的面吹牛徐绑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播莫辨,決...
    沈念sama閱讀 41,155評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼傲茄,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了沮榜?” 一聲冷哼從身側(cè)響起盘榨,我...
    開(kāi)封第一講書(shū)人閱讀 40,098評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蟆融,沒(méi)想到半個(gè)月后草巡,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,638評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡型酥,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,701評(píng)論 3 342
  • 正文 我和宋清朗相戀三年山憨,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冕末。...
    茶點(diǎn)故事閱讀 40,852評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡萍歉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出档桃,到底是詐尸還是另有隱情枪孩,我是刑警寧澤,帶...
    沈念sama閱讀 36,520評(píng)論 5 351
  • 正文 年R本政府宣布藻肄,位于F島的核電站蔑舞,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏嘹屯。R本人自食惡果不足惜攻询,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,181評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望州弟。 院中可真熱鬧钧栖,春花似錦低零、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,674評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至潭陪,卻和暖如春雄妥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背依溯。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,788評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工老厌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人黎炉。 一個(gè)月前我還...
    沈念sama閱讀 49,279評(píng)論 3 379
  • 正文 我出身青樓枝秤,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親拜隧。 傳聞我的和親對(duì)象是個(gè)殘疾皇子宿百,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,851評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 字符是用戶可以讀寫(xiě)的最小單位垦页。計(jì)算機(jī)所能支持的字符組成的集合,就叫做字符集干奢。字符集通常以二維表的形式存在痊焊。二維表的...
    劉惜有閱讀 8,131評(píng)論 2 14
  • 編碼問(wèn)題一直困擾著開(kāi)發(fā)人員,尤其在 Java 中更加明顯忿峻,因?yàn)?Java 是跨平臺(tái)語(yǔ)言薄啥,不同平臺(tái)之間編碼之間的切換...
    x360閱讀 2,483評(píng)論 1 20
  • 得不到回應(yīng)的熱情會(huì)變冷 等不到響應(yīng)的主動(dòng)會(huì)放棄 有些事自己知道就好 沒(méi)必要去追問(wèn) 因?yàn)榇鸢肝幢啬芙邮?對(duì)于不喜歡你...
    木子皙913閱讀 162評(píng)論 0 0
  • 1 我們?cè)谌粘I钪新?tīng)得最為多的一句話垄惧,“你看誰(shuí)誰(shuí)家條件多好,有房有車(chē)”或者是“你看誰(shuí)誰(shuí)條件多好绰寞,小伙長(zhǎng)得機(jī)靈到逊,工...
    YIBAO閱讀 440評(píng)論 4 8
  • 現(xiàn)在美國(guó)是圣誕假期, 作為外企滤钱,因?yàn)樗泄ぷ鞫际敲绹?guó)分配觉壶, 而老板休假,員工自然是懶散的件缸。所以上班時(shí)間铜靶,有閑心寫(xiě)寫(xiě)...
    只有香如故閱讀 304評(píng)論 0 1