Python解碼

2016.3.3部分

上手爬蟲(chóng)第一天粟瞬，就遇到了一個(gè)麻煩的問(wèn)題：解碼解不出來(lái)。
先上源碼：

import urllib
import urllib.request

data = {}
data['word'] = 'LEGO'

url_values = urllib.parse.urlencode(data)
url = 'http://www.baidu.com/s?'
full_url = url + url_values

response = urllib.request.urlopen(url)
data = response.read()
data = data.decode('utf8')
print (data)

這段代碼就等于是在百度搜索“LEGO”患整，然后讀取搜索到的網(wǎng)頁(yè)結(jié)果。跑一下谬莹，發(fā)現(xiàn)提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbe in position 60: invalid start byte诅迷。上網(wǎng)查了下資料，發(fā)現(xiàn)有幾三個(gè)地方?jīng)]太搞懂掐松，搞懂了就能解決這個(gè)解碼問(wèn)題了：

response.read()返回的到底是什么編碼字符踱侣？是html的代碼對(duì)吧，那么這個(gè)html代碼是用什么方法來(lái)編碼的呢大磺？
decode('?')中需要用什么編碼方式才能正確解碼抡句？如果知道問(wèn)題1的答案，那么這個(gè)問(wèn)題2也容易解決了杠愧。由于不知道是什么編碼方式待榔，那么將?一個(gè)個(gè)使用uft8、big5、unicode锐锣、gbk等編碼方式嘗試腌闯，結(jié)果都是類似的提示，只是報(bào)錯(cuò)的行數(shù)不同雕憔。
我在網(wǎng)上嘗試了一下解碼后再次編碼的方法姿骏，變成了data = data.decode('utf8').encode('gbk')，看能不能有突破斤彼，發(fā)現(xiàn)不行后分瘦，刪掉了后加上的代碼，只保留data = data.decode('utf8')琉苇，結(jié)果運(yùn)行.py后還一直提示UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 25145: illegal multibyte sequence嘲玫，最后只能是將整行注釋掉才恢復(fù)正常（輸出html源碼），但去掉注釋后又彈出encode提示并扇，代碼中明明沒(méi)有了encode叭ネ拧！我的內(nèi)心幾乎是崩潰的拜马！

在繼續(xù)查資料后渗勘，決定先放下這個(gè)解碼問(wèn)題，先做好數(shù)據(jù)存儲(chǔ)那一塊俩莽，再回頭慢慢解決切割和解碼問(wèn)題旺坠，沒(méi)準(zhǔn)到時(shí)候就懂了。

2016.3.10部分

在使用了Requests和BeautifulSoup第三方庫(kù)后扮超，打算將爬到的數(shù)據(jù)打印出來(lái)看一下：

import requests
import urllib.parse
from bs4 import BeautifulSoup

response = requests.get('http://www.baidu.com')
soup = BeautifulSoup(response.text, "html.parser")

print (soup.title.text)
print (soup.body.text)

結(jié)果取刃，還是報(bào)了跟之前一樣的編碼錯(cuò)誤：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 12734: illegal multibyte sequence，于是繼續(xù)查出刷，終于找到原因了璧疗。
解決方法如下：

忽略cmd的顯示問(wèn)題，直接存為文件輸出

其實(shí)呢馁龟，這是windows控制臺(tái)本身的顯示編碼崩侠，在dos窗口標(biāo)題，右鍵菜單選擇屬性坷檩，可以看到控制臺(tái)的默認(rèn)編碼為GBK（cp936）却音。
所以說(shuō)，問(wèn)題不在python矢炼，不在網(wǎng)頁(yè)系瓢，而是那個(gè)呆板的dos控制臺(tái)。
解決方法呢句灌，簡(jiǎn)單點(diǎn)可以寫(xiě)到本地文件中查看夷陋，復(fù)雜點(diǎn)的就留給你去折騰了。注意，這只是dos控制臺(tái)的顯示問(wèn)題骗绕，對(duì)于其中字符串的處理完全不受阻礙藐窄。看不看得見(jiàn)，它就在內(nèi)存里爹谭，該干嘛還干嘛枷邪。

使用函數(shù)將爬取的數(shù)據(jù)保存為文件

def save_file(data, path):
files = open(path, 'wb')
files.write(data)
files.close()
save_file(soup.title.text, 'p7_title.txt')
save_file(soup.body.text, 'p7_body.txt')

結(jié)果報(bào)了另外一個(gè)錯(cuò)：TypeError: a bytes-like object is required, not 'str'，那么再對(duì)爬到的數(shù)據(jù)使用strip再encode的方法

save_file(soup.title.text.strip('\00').encode(), 'p7_title.txt')
save_file(soup.body.text.strip('\00').encode(), 'p7_body.txt')

如此一來(lái)诺凡，雖然是繞彎解決的，沒(méi)有直面問(wèn)題践惑，但還是順利解決了問(wèn)題腹泌，并且已經(jīng)拿到了需要的數(shù)據(jù)。

Python解碼

Python解碼

2016.3.3部分

2016.3.10部分

相關(guān)資料

推薦閱讀更多精彩內(nèi)容