(作業(yè)都在這篇文檔中,每天更新哄啄,請保存一下地址雅任,謝謝~)
提交作業(yè)方式:
第一組的同學(xué),第一周(4.17~22)群內(nèi)直接提問咨跌,截屏發(fā)自己的進(jìn)度沪么。
第二組的同學(xué),要求把項(xiàng)目思路和結(jié)果寫成文章锌半,發(fā)到專題禽车。
推薦代碼提交到 github
2017-5-8 作業(yè) 18:
一組:1)文件讀寫,爬取數(shù)據(jù)寫入csv或Excel; 2) 爬取數(shù)據(jù)存入數(shù)據(jù)庫
二組:(晚上發(fā)布:最終項(xiàng)目)
2017-5-7 作業(yè) 17:
今天的作業(yè)是選做題拳喻,聽了昨晚的分享哭当,你有什么筆記猪腕、感悟或思考冗澈,可以寫下來,仍然投到作業(yè)專題陋葡。
2017-5-6 作業(yè) 16:
推薦幾篇文章亚亲,使用大家整理復(fù)習(xí)。鼓勵大家多寫多總結(jié)腐缤。
- 阮一峰老師文章的常識性錯誤之 Unicode 與 UTF-8
- Python爬蟲基礎(chǔ) | 字符串和編碼
- Python爬蟲基礎(chǔ) | 爬蟲反ban的技巧
- 爬取知乎問題答案贊同最多數(shù)據(jù)--單線程完整版
- python爬蟲——知乎(關(guān)于python的精華回答)
- Selenium在異步加載中的應(yīng)用
2017-5-5 作業(yè)15:
今天沒有新任務(wù)捌归,整理
整理前一段時(shí)間的內(nèi)容,進(jìn)度和問題岭粤。
2017-5-4 作業(yè)14:
一組:MySQL基本操作惜索, SQL語句
二組:整理了解基本的爬蟲防Ban措施
嘉賓分享提問收集。
2017-5-3 作業(yè)13:
一組 重點(diǎn)剃浇,理解結(jié)構(gòu)化數(shù)據(jù)抓取巾兆,選取好循環(huán)點(diǎn),分析網(wǎng)頁代碼虎囚,會調(diào)試角塑。
010 - 使用BeautifulSoup和XPath抓取結(jié)構(gòu)化數(shù)據(jù)
2017-5-2 作業(yè)12:
一組 本周內(nèi)容:
BeautifulSoup和XPath
008 - 爬蟲處理流程及網(wǎng)頁解析
009 - 使用XPath解析網(wǎng)頁了解MySQL
二組 本周內(nèi)容:
爬取兩個(gè)站點(diǎn):微博和知乎,把知乎上Python學(xué)習(xí)的高分回答抓取下來淘讥。
2017-4-28 作業(yè)11:
整理一周進(jìn)度圃伶,把遇到的問題寫下來,準(zhǔn)備答疑交流。
2017-4-27 作業(yè)10:
一組內(nèi)容:
從一小段代碼開始窒朋,理解爬蟲搀罢。007 - Python簡單爬蟲 - 正則表達(dá)式
需要的知識點(diǎn):網(wǎng)絡(luò)請求,源代碼定位分析(HTML)侥猩,正則表達(dá)式魄揉,Python網(wǎng)絡(luò)訪問庫,邏輯基礎(chǔ)拭宁。
需要說明的是洛退,文章中代碼方式(urllib+正則匹配方式)不是后續(xù)寫爬蟲的主要方式。
二組內(nèi)容:
開始提交項(xiàng)目代碼流程和結(jié)果分析杰标。
2017-4-26 作業(yè)9:
一組內(nèi)容:
1)了解HTML文檔結(jié)構(gòu)
2)了解常用的HTML標(biāo)簽 <a>,<img>,<p>,<div>,<ul>,<li>,<span>
3)了解url兵怯,分頁url的基本規(guī)律
4)了解HTTP請求響應(yīng)的過程
2017-4-23 作業(yè)8:
一組:HTML基礎(chǔ) & 正則表達(dá)式 (此內(nèi)容2~3天)
了解HTML基本內(nèi)容即可,HTML教程
正則表達(dá)式:
- 視頻學(xué)習(xí)
-
Python正則表達(dá)式指南
本周還要強(qiáng)化編程邏輯練習(xí)
二組:本周要爬取的站點(diǎn)兩個(gè):拉鉤網(wǎng)(Python工程師崗位腔剂,數(shù)據(jù)分析師崗位)媒区,豆瓣讀書(比較 簡書-讀書,京東讀東掸犬,學(xué)習(xí)數(shù)據(jù)處理袜漩、分析方法)
2017-4-22 作業(yè)7:
群內(nèi)集中答疑輔導(dǎo)
2017-4-21 作業(yè)6:
一組:完成 萬年歷邏輯功能,學(xué)習(xí)函數(shù)調(diào)用
集中答疑交流
二組:集中答疑交流湾碎,爬蟲流程分析宙攻,url分析
2017-4-20 作業(yè)5:
一組:完成 萬年歷的界面打印,學(xué)習(xí)函數(shù)定義介褥、調(diào)用
二組:參考爬蟲小分隊(duì)二組作業(yè)題-20170420 座掘,把自己的代碼和疑問整理一下,包括進(jìn)度方面的問題柔滔,周末綜合答疑溢陪。
2017-4-20 作業(yè)4:
一組:完成 循環(huán)語句
練習(xí):求出1000以內(nèi)的完全數(shù)有哪些
周六帶著大家對本周所有知識點(diǎn)進(jìn)行梳理。
二組:作業(yè)項(xiàng)目截止提交睛廊,把爬取的思路形真、結(jié)果寫成文章,最好能加上一些對數(shù)據(jù)的處理和分析超全。
2017-4-19 作業(yè)3:
一組:完成 條件語言
練習(xí):判斷一個(gè)年份是不是閏年
一組的進(jìn)度咆霜,如果每天都完成比較快,可以往前趕卵迂,本周需要完成的任務(wù):002 - Python 程序邏輯訓(xùn)練3題
2017-4-18 作業(yè)2:
一組:完成變量和數(shù)據(jù)類型裕便,操作符
二組:
第2組 簡書熱門文章數(shù)據(jù)(3天完成 4.18-20)
抓取簡書七日熱門數(shù)據(jù),如果有時(shí)間加以分析
http://www.reibang.com/trending/weekly
爬取數(shù)據(jù)字段:
1.用戶
2.標(biāo)題
3.閱讀量
4.評論量
5.獲贊量
6.打賞數(shù)
7.文章發(fā)表時(shí)間
(文章類別见咒,來自哪個(gè)專題偿衰。選做)
數(shù)據(jù)保存為CSV或Excel
2017-4-17 作業(yè)1:
填寫提交學(xué)習(xí)情況調(diào)查表。
安裝Python和Python開發(fā)環(huán)境。
2017-4-16 作業(yè)0:
把自己學(xué)過的Python內(nèi)容梳理一下(其他編程語言的情況也寫出來)下翎,之前學(xué)習(xí)中的問題缤言、困難點(diǎn)都可以提出來,每天的學(xué)習(xí)時(shí)間安排视事,寫成文章胆萧,投到 Python爬蟲作業(yè)
剛剛開始學(xué)習(xí)的同學(xué),看我簡書上000-002文章俐东,了解嘗試安裝Python環(huán)境跌穗。