突然想探索爬知乎霜旧、微博等囱怕,暫時還是以網(wǎng)站為主磷支。
發(fā)現(xiàn)有人開發(fā)了爬知乎的工具zhihu_oauth棺棵,感謝這位大神幫忙省了很多功夫楼咳。
在這個博文https://www.cnblogs.com/lyrichu/p/6802252.html
上get到了使用方法熄捍,比如登錄什么,剩下的就爬取文字內(nèi)容母怜,so easy余耽,然后制作詞云。
from __future__ import print_function # 使用python3的print方法
from zhihu_oauth import ZhihuClient
import re
import os
import urllib
import time
from bs4 import BeautifulSoup
import pandas as pd #計算用
client = ZhihuClient()
# 登錄
client.load_token('token.pkl') # 加載token文件
id =315498268 # https://www.zhihu.com/question/24400664(長得好看是一種怎么樣的體驗)
question = client.question(id)
print(u"問題:",question.title)
print(u"回答數(shù)量:",question.answer_count)
# 建立存放圖片的文件夾
# os.mkdir(question.title + u"(圖片)")
# path = question.title + u"(圖片)"
# # index = 1 # 圖片序號
jieguo=[]
count=0
for answer in question.answers:
content = answer.content # 回答內(nèi)容
# soup = BeautifulSoup(content, features="html.parser") # 用lxml解析
# print(content)
time.sleep(2)
# print(soup)
# m=soup.findall("p",content)
recompile = re.sub(r'[^\u4e00-\u9fa5]','',content)
# m = re.findall(recompile,content)
print(count)
count+=1
jieguo.append(recompile)
if(count==200):
break
# for i in m:
# print(i)
data = pd.DataFrame(jieguo)
print(data.shape)
csv_headers = ['comment']
data.to_csv('./zzx.csv', header=csv_headers, encoding='utf-8')
示例:
zhihu2.png
所以做詞云還是選擇規(guī)則圖形比較好