Homework1

#?需求：

爬取小豬網(wǎng)上的詳細(xì)租房信息竞思，實(shí)現(xiàn)遍歷爬取构蹬，并且把結(jié)果放到excel保存。

##數(shù)據(jù)內(nèi)容：

title，price跨算，address，host_name, rating, img_path

# 結(jié)果：

# 代碼：

'''

abcdefg

'''

- first one

-second one

難點(diǎn)和經(jīng)驗(yàn)：

1. split（）方法

str ='? www.test111.com.cn? '

print(str.split())#前后去空格，按照空格分隔

print(str.split("."))#按照“.”分隔

print(str.split(".")[-3])#取分隔后的第幾位

print(str.split(".",1))#分隔1次

print(str.split(".",2))#分隔2次

str2 =''.join(str.split())#列表轉(zhuǎn)字符串

print(str2.split("."))

list2 =list(str)

print(list2)#字符串轉(zhuǎn)列表

輸出：

['www.test111.com.cn']

['? www', 'test111', 'com', 'cn? ']

test111

['? www', 'test111.com.cn? ']

['? www', 'test111', 'com.cn? ']

['www', 'test111', 'com', 'cn']

[' ', ' ', ' ', 'w', 'w', 'w', '.', 't', 'e', 's', 't', '1', '1', '1', '.', 'c', 'o', 'm', '.', 'c', 'n', ' ', ' ', ' ']

2. encoding問題

因?yàn)樵谀硹l記錄的title上有個類似于花朵的特殊字符?，所有無法編碼带膀。

報(bào)了類似于這樣的錯誤：Traceback (most recent call last):? File "C:/Users/Administrator/PycharmProjects/untitled/spider/160822_xiaozhu.py", line 41, inwriter.writerow([dict2['title'],dict2['price'],dict2['address'],dict2['host_name'],dict2['rating'],dict2['img']])

UnicodeEncodeError: 'gbk' codec can't encode character '\u273f' in position 0: illegal multibyte sequence。

后來上網(wǎng)查詢了中文編碼的各種類型：

1橙垢、GB2312

GB2312(1980年)一共收錄了7445個字符垛叨，包括6763個漢字和682個其它符號。漢字區(qū)的內(nèi)碼范圍高字節(jié)從B0-F7柜某，低字節(jié)從A1-FE嗽元，占用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE莺琳。

在windows中的代碼頁是CP936

2还棱、GBK

GBK最初是由微軟對GB2312的擴(kuò)展，也就是CP936字碼表(Code Page 936)的擴(kuò)展（原來的CP936和GB 2312-80一模一樣）惭等，最初出現(xiàn)于Windows 95簡體中文版中珍手，由于Windows產(chǎn)品的流行和在大陸廣泛被使用，中華人民共和國國家有關(guān)部門將其作為技術(shù)規(guī)范辞做。注意GBK并非國家正式標(biāo)準(zhǔn)琳要，只是國家技術(shù)監(jiān)督局標(biāo)準(zhǔn)化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司發(fā)布的“技術(shù)規(guī)范指導(dǎo)性文件”秤茅。雖然GBK收錄了所有Unicode 1.1及GB 13000.1-93之中的漢字稚补，但是編碼方式與Unicode 1.1及GB 13000.1-93不同。僅僅是GB 2312到GB 13000.1-93之間的過渡方案框喳。GBK收錄了21886個符號课幕，它分為漢字區(qū)和圖形符號區(qū)。漢字區(qū)包括21003個字符五垮。

GBK作為對GB2312的擴(kuò)展乍惊，在現(xiàn)在的windows系統(tǒng)中仍然使用代碼頁CP936表示，但是同樣的936的代碼頁跟一開始的936的代碼頁只支持GB2312編碼不同放仗，現(xiàn)在的936代碼頁支持GBK的編碼润绎，GBK同時也向下兼容GB2312編碼。

3诞挨、GB18030

2000年的GB18030取代了GBK1.0的正式國家標(biāo)準(zhǔn)莉撇。該標(biāo)準(zhǔn)收錄了27484個漢字，同時還收錄了藏文惶傻、蒙文棍郎、維吾爾文等主要的少數(shù)民族文字。現(xiàn)在的PC平臺必須支持GB18030银室，對嵌入式產(chǎn)品暫不作要求涂佃。所以手機(jī)静秆、MP3一般只支持GB2312。

GB18030在windows中的代碼頁是CP54936巡李。

4、GB13000

GB13000等同于國際標(biāo)準(zhǔn)的《通用多八位編碼字符集(UCS)》ISO10646.1扶认，就是等同于Unicode的標(biāo)準(zhǔn)侨拦，代碼頁等等的都使用UTF的一套標(biāo)準(zhǔn)。

從ASCII辐宾、GB2312狱从、GBK到GB18030，這些編碼方法是向下兼容的叠纹，即同一個字符在這些方案中總是有相同的編碼季研，后面的標(biāo)準(zhǔn)支持更多的字符。在這些編碼中誉察，英文和中文可以統(tǒng)一地處理与涡。區(qū)分中文編碼的方法是高字節(jié)的最高位不為0。按照程序員的稱呼持偏，GB2312驼卖、GBK到GB18030都屬于雙字節(jié)字符集(DBCS)。

原因以及解決辦法鸿秆，這個類似于?的中文字符應(yīng)該是超過了GBK和GB2312的字符全集酌畜，所以在打開csv的時候encoding參數(shù)設(shè)置成GB19030就可以順利解碼并且在CSV上正確顯示中文。

csvFile=open("d:/files/test.csv",'w+',newline='',encoding='GB18030')

最后編輯于：2017.12.04 02:06:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末卿叽，一起剝皮案震驚了整個濱河市桥胞，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌考婴，老刑警劉巖贩虾，帶你破解...
沈念sama閱讀 206,482評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異蕉扮，居然都是意外死亡整胃，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,377評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門喳钟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來屁使，“玉大人，你說我怎么就攤上這事奔则÷牛” “怎么了？”我有些...
開封第一講書人閱讀 152,762評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵易茬，是天一觀的道長酬蹋。經(jīng)常有香客問我及老，道長，這世上最難降的妖魔是什么范抓？我笑而不...
開封第一講書人閱讀 55,273評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任骄恶，我火速辦了婚禮，結(jié)果婚禮上匕垫，老公的妹妹穿的比我還像新娘僧鲁。我一直安慰自己，他們只是感情好象泵，可當(dāng)我...
茶點(diǎn)故事閱讀 64,289評論 5贊 373
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布寞秃。她就那樣靜靜地躺著，像睡著了一般偶惠。火紅的嫁衣襯著肌膚如雪春寿。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,046評論 1贊 285
城市分裂傳說
那天忽孽，我揣著相機(jī)與錄音绑改，去河邊找鬼。笑死扒腕，一個胖子當(dāng)著我的面吹牛绢淀，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播瘾腰，決...
沈念sama閱讀 38,351評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼皆的，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了蹋盆？” 一聲冷哼從身側(cè)響起费薄，我...
開封第一講書人閱讀 36,988評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎栖雾，沒想到半個月后楞抡，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,476評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡析藕，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,948評論 2贊 324
?白月光啟示錄
正文我和宋清朗相戀三年召廷，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片账胧。...
茶點(diǎn)故事閱讀 38,064評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡竞慢，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出治泥，到底是詐尸還是另有隱情筹煮，我是刑警寧澤，帶...
沈念sama閱讀 33,712評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布居夹，位于F島的核電站败潦，受9級特大地震影響本冲，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劫扒，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,261評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一檬洞、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧沟饥，春花似錦疮胖、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,264評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽院塞。三九已至遮晚，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間拦止，已是汗流浹背县遣。一陣腳步聲響...
開封第一講書人閱讀 31,486評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汹族，地道東北人萧求。一個月前我還...
沈念sama閱讀 45,511評論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長得像顶瞒，于是被迫代替她去往敵國和親夸政。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,802評論 2贊 345

Homework1

1. split（）方法

2. encoding問題

推薦閱讀更多精彩內(nèi)容