Homework1


#?需求

爬取小豬網(wǎng)上的詳細(xì)租房信息竞思,實(shí)現(xiàn)遍歷爬取构蹬,并且把結(jié)果放到excel保存。

##數(shù)據(jù)內(nèi)容:

title,price跨算,address,host_name, rating, img_path

# 結(jié)果:


# 代碼:


'''

abcdefg

'''


- first one

-second one

難點(diǎn)和經(jīng)驗(yàn):

1. split()方法

str ='? www.test111.com.cn? '

print(str.split())#前后去空格,按照空格分隔

print(str.split("."))#按照“.”分隔

print(str.split(".")[-3])#取分隔后的第幾位

print(str.split(".",1))#分隔1次

print(str.split(".",2))#分隔2次

str2 =''.join(str.split())#列表轉(zhuǎn)字符串

print(str2.split("."))

list2 =list(str)

print(list2)#字符串轉(zhuǎn)列表

輸出:

['www.test111.com.cn']

['? www', 'test111', 'com', 'cn? ']

test111

['? www', 'test111.com.cn? ']

['? www', 'test111', 'com.cn? ']

['www', 'test111', 'com', 'cn']

[' ', ' ', ' ', 'w', 'w', 'w', '.', 't', 'e', 's', 't', '1', '1', '1', '.', 'c', 'o', 'm', '.', 'c', 'n', ' ', ' ', ' ']




2. encoding問題

因?yàn)樵谀硹l記錄的title上有個類似于花朵的特殊字符?,所有無法編碼带膀。

報(bào)了類似于這樣的錯誤:Traceback (most recent call last):? File "C:/Users/Administrator/PycharmProjects/untitled/spider/160822_xiaozhu.py", line 41, inwriter.writerow([dict2['title'],dict2['price'],dict2['address'],dict2['host_name'],dict2['rating'],dict2['img']])

UnicodeEncodeError: 'gbk' codec can't encode character '\u273f' in position 0: illegal multibyte sequence。

后來上網(wǎng)查詢了中文編碼的各種類型:

1橙垢、GB2312

GB2312(1980年)一共收錄了7445個字符垛叨,包括6763個漢字和682個其它符號。漢字區(qū)的內(nèi)碼范圍高字節(jié)從B0-F7柜某,低字節(jié)從A1-FE嗽元,占用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE莺琳。

在windows中的代碼頁是CP936

2还棱、GBK

GBK最初是由微軟對GB2312的擴(kuò)展,也就是CP936字碼表(Code Page 936)的擴(kuò)展(原來的CP936和GB 2312-80一模一樣)惭等,最初出現(xiàn)于Windows 95簡體中文版中珍手,由于Windows產(chǎn)品的流行和在大陸廣泛被使用,中華人民共和國國家有關(guān)部門將其作為技術(shù)規(guī)范辞做。注意GBK并非國家正式標(biāo)準(zhǔn)琳要,只是國家技術(shù)監(jiān)督局標(biāo)準(zhǔn)化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司發(fā)布的“技術(shù)規(guī)范指導(dǎo)性文件”秤茅。雖然GBK收錄了所有Unicode 1.1及GB 13000.1-93之中的漢字稚补,但是編碼方式與Unicode 1.1及GB 13000.1-93不同。僅僅是GB 2312到GB 13000.1-93之間的過渡方案框喳。GBK收錄了21886個符號课幕,它分為漢字區(qū)和圖形符號區(qū)。漢字區(qū)包括21003個字符五垮。

GBK作為對GB2312的擴(kuò)展乍惊,在現(xiàn)在的windows系統(tǒng)中仍然使用代碼頁CP936表示,但是同樣的936的代碼頁跟一開始的936的代碼頁只支持GB2312編碼不同放仗,現(xiàn)在的936代碼頁支持GBK的編碼润绎,GBK同時也向下兼容GB2312編碼。

3诞挨、GB18030

2000年的GB18030取代了GBK1.0的正式國家標(biāo)準(zhǔn)莉撇。該標(biāo)準(zhǔn)收錄了27484個漢字,同時還收錄了藏文惶傻、蒙文棍郎、維吾爾文等主要的少數(shù)民族文字。現(xiàn)在的PC平臺必須支持GB18030银室,對嵌入式產(chǎn)品暫不作要求涂佃。所以手機(jī)静秆、MP3一般只支持GB2312。

GB18030在windows中的代碼頁是CP54936巡李。

4、GB13000

GB13000等同于國際標(biāo)準(zhǔn)的《通用多八位編碼字符集(UCS)》ISO10646.1扶认,就是等同于Unicode的標(biāo)準(zhǔn)侨拦,代碼頁等等的都使用UTF的一套標(biāo)準(zhǔn)。

從ASCII辐宾、GB2312狱从、GBK到GB18030,這些編碼方法是向下兼容的叠纹,即同一個字符在這些方案中總是有相同的編碼季研,后面的標(biāo)準(zhǔn)支持更多的字符。在這些編碼中誉察,英文和中文可以統(tǒng)一地處理与涡。區(qū)分中文編碼的方法是高字節(jié)的最高位不為0。按照程序員的稱呼持偏,GB2312驼卖、GBK到GB18030都屬于雙字節(jié)字符集(DBCS)。

原因以及解決辦法鸿秆,這個類似于?的中文字符應(yīng)該是超過了GBK和GB2312的字符全集酌畜,所以在打開csv的時候encoding參數(shù)設(shè)置成GB19030就可以順利解碼并且在CSV上正確顯示中文。

csvFile=open("d:/files/test.csv",'w+',newline='',encoding='GB18030')

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卿叽,一起剝皮案震驚了整個濱河市桥胞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌考婴,老刑警劉巖贩虾,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蕉扮,居然都是意外死亡整胃,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門喳钟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來屁使,“玉大人,你說我怎么就攤上這事奔则÷牛” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵易茬,是天一觀的道長酬蹋。 經(jīng)常有香客問我及老,道長,這世上最難降的妖魔是什么范抓? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任骄恶,我火速辦了婚禮,結(jié)果婚禮上匕垫,老公的妹妹穿的比我還像新娘僧鲁。我一直安慰自己,他們只是感情好象泵,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布寞秃。 她就那樣靜靜地躺著,像睡著了一般偶惠。 火紅的嫁衣襯著肌膚如雪春寿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天忽孽,我揣著相機(jī)與錄音绑改,去河邊找鬼。 笑死扒腕,一個胖子當(dāng)著我的面吹牛绢淀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瘾腰,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼皆的,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蹋盆?” 一聲冷哼從身側(cè)響起费薄,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎栖雾,沒想到半個月后楞抡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡析藕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年召廷,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片账胧。...
    茶點(diǎn)故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡竞慢,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出治泥,到底是詐尸還是另有隱情筹煮,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布居夹,位于F島的核電站败潦,受9級特大地震影響本冲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劫扒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一檬洞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沟饥,春花似錦疮胖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽院塞。三九已至遮晚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間拦止,已是汗流浹背县遣。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汹族,地道東北人萧求。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像顶瞒,于是被迫代替她去往敵國和親夸政。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 字符集和編碼簡介 在編程中常沉裥欤可以見到各種字符集和編碼守问,包括ASCII,MBCS,Unicode等字符集。確切的說...
    蘭山小亭閱讀 8,453評論 0 13
  • 什么是字符集,什么是字符編碼袱贮,它做什么用仿便? 字符(Charcter)是文字與符號的總稱,包括文字攒巍、圖形符號嗽仪、數(shù)學(xué)符...
    laravel閱讀 297評論 0 0
  • 因?yàn)樽蛱彀滋彀言撟龅氖虑槎加行实赝瓿闪耍⑶覍W(xué)習(xí)到了一個觀點(diǎn)窑业,注意力相比較時間與金錢是最重要的钦幔。一種前所未有的開...
    閃閃貝貝君閱讀 151評論 0 0
  • 假期已經(jīng)過去兩個月了吧,其實(shí)這篇小故事應(yīng)該剛開學(xué)就整理好的常柄,因?yàn)榍岸螘r間一直在做其他事鲤氢,所以才拖了那么久搀擂。想想真不...
    喵文文閱讀 519評論 3 2
  • 相見、相識卷玉,卻不相戀 難得友誼 相知哨颂,自知不能相戀 何懼分離,暗自傷 何時知彼心相种,難分離 何時啟言語威恼,難表白 待你...
    Y凰閱讀 239評論 0 1