今天是6.16號蔓姚。
昨天去面越秀金融風險控制部計算機實習生卓囚,去面了才知道主要也就是做數據抓取這一塊簿盅。面試過程中有問到分詞轧拄,然后自己心虛的說了有接觸過分詞這一塊揽祥,面試結果就不去想了,過不過都其實不重要了檩电。此外還有問到:你覺得實習和項目的經歷最大的收獲是什么拄丰?你想從這份實習中收獲什么府树?你覺得自己最大的優(yōu)勢和缺點是什么?這些問題在9月份的求職生活中應該還會遇到的料按。
趁現在有時間奄侠,然后看知乎又看到了圖片云的一篇文章,其中還涉及到了結巴分詞的使用站绪,所以決定這兩天好好研究一下怎么使用遭铺。然后找一個問題來分析丽柿,并得到最終的結果恢准,本來想找學校BBS里面的帖子主體進行分析,但打開簡書來寫時甫题,想想用簡書首頁的熱門文章來分析也不錯馁筐。
代碼是6.16號運行的,但簡書首頁每天都在更新坠非,所以最終得到的云標簽會與其他時間運行得到的結果有所差異敏沉,但主要的核心還是掌握在實現過程中會涉及到的知識點:
1.異步加載;(往下拉時需要點擊顯示更多才會出現新的文章)
2.分詞炎码;
3.標簽云盟迟。
一、異步加載
一般異步加載出來的頁面都可以在chrome瀏覽器下的network中找到規(guī)律潦闲,簡書中點擊“點擊查看更多后”可以在network中看到一個xhr文件攒菠,然后可以從headers里面直接看到新加載出來的頁面的網址。
二歉闰、分詞
三辖众、標簽云
最后貼上代碼:
第一部分:抓取首頁上熱門標簽下所有文章的標題
自己試了一下,簡書首頁熱門標簽文章點擊查看更多最多也只能加載10頁和敬。
#!/usr/bin/env python
# * coding: utf-8 *
import requests
from bs4 import BeautifulSoup
import re
import time
from multiprocessing import Pool
start_url='http://www.reibang.com/'
host='http://www.reibang.com'
headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Cookie':'read_mode=day; default_font=font2; __utmt=1; Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1466054262,1466057911,1466057983,1466064672; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1466065361; __utma=194070582.1669649852.1452758384.1466054263.1466064585.135; __utmb=194070582.12.10.1466064585; __utmc=194070582; __utmz=194070582.1466054263.134.11.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmv=194070582.|2=User%20Type=Member=1; _session_id=amhxY2NtUENjQXdkMS9JRStlc0ZvV0RaaU96TXZrZ3pkK0Ewc280cmtQcHdTTFNOWk1PcGRkVDc4YzVDOGJhT2xXMlFkakN4WHpBT1d4a3Z1bUJUbXc9PS0tTjg2UGQ0aWZjdTFsNmlCdmhYRThPdz09--363edd825b2b9f3fd9d52848169fe2829b4ad3a3',
# 'Host':'www.reibang.com
'If-None-Match':'W/"ab6ec19c0f005cad8d2c630dffbeb0a5"',
'Referer':'http://www.reibang.com/',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'
}
links=[start_url]
i=0
def get_all_links(url):
web_data=requests.get(url,headers=headers)
soup=BeautifulSoup(web_data.text,'lxml')
if soup.find(attrs={'class':'load-more'}):
link=str(soup.find(attrs={'class':'load-more'}))
link1=host+re.findall(r'data-url="(.*?)"',link,re.M)[0]
links.append(link1)
time.sleep(1)
if len(links)<=200: #modify the number of page you want to scrapy
global i
i=i+1
get_all_links(links[i])
else:
pass
def get_contents(url):
web_data=requests.get(url,headers=headers)
soup=BeautifulSoup(web_data.text,'lxml')
titles=soup.select('h4.title a')
authors=soup.select('a.author-name.blue-link')
route1=r'C:\Users\guohuaiqi\Desktop\title.txt'
route2=r'C:\Users\guohuaiqi\Desktop\author.txt'
with open(route1,'a') as f:
for i in titles:
try:
f.write(i.get_text())
except UnicodeEncodeError:
continue
with open(route2,'a') as f1:
for j in authors:
try:
f1.write(j.get_text()+'\n')
except UnicodeEncodeError:
continue
if __name__=='__main__':
get_all_links(start_url)
pool=Pool()
pool.map(get_contents,links)
print('All have done successfully!')
第二部分:對抓取下來的標題進行分詞
好幾個月了還沒有寫完凹炸,對分詞模塊還是有點不會用,后面有機會再去學習昼弟。
未完待續(xù)啤它。。舱痘。