網(wǎng)絡(luò)數(shù)據(jù)采集
今天速讀了一下Python網(wǎng)絡(luò)數(shù)據(jù)采集墙懂,第一次用泛讀速讀的方法閱讀學習材料橡卤。這里記上一些一天之后的收獲,思路由目錄回憶损搬,粗略的片段碧库,并不保證準確,隨著日后的學習會補充巧勤。
1. 關(guān)于BeautifulSoup 這玩意是干啥的嵌灰? 負責把網(wǎng)頁中的信息轉(zhuǎn)換成python能夠讀取得懂的信息 有倆函數(shù)很厲害find()
和findAll()
,用于過濾html頁面
2.關(guān)于正則表達式 給出兩個學習正則表達式的鏈接 python中的正則表達式模塊 正則表達式30分鐘入門教程
3.儲存數(shù)據(jù) 使用Mysql儲存文件 關(guān)于Mysql安裝:一會兒寫一下 [to-do] pymysql可以實現(xiàn)python和mysql的連接
4. 文檔編碼 簡單來說unicode最全面颅悉,但是iso還是彌補了很多 對于拉丁文來說ascii比unicode簡介很多沽瞭,不過對于中文來說就是unicode了
5. 數(shù)據(jù)清洗 引入了n-gram模型,把一個文本中剩瓶,連續(xù)出現(xiàn)的n個詞組成一個組合驹溃,并返回詞頻,而n-gram模型作出的統(tǒng)計是當前置詞出現(xiàn)之后延曙,后續(xù)詞出現(xiàn)的條件概率統(tǒng)計豌鹤。
6. 馬爾可夫模型 舉例了馬爾可夫模型的天氣預測解釋 從而引入馬爾可夫文字生成器,圖如下
7. Requests庫 通過requests庫可以提交簡單的表單 通過requests庫可以提交彈窗那種HTTP基本接入認證 通過requests庫可以解決登陸和cookie的檢測