知乎答案詞云

突然想探索爬知乎霜旧、微博等囱怕,暫時還是以網(wǎng)站為主磷支。
發(fā)現(xiàn)有人開發(fā)了爬知乎的工具zhihu_oauth棺棵,感謝這位大神幫忙省了很多功夫楼咳。
在這個博文https://www.cnblogs.com/lyrichu/p/6802252.html
上get到了使用方法熄捍,比如登錄什么,剩下的就爬取文字內(nèi)容母怜,so easy余耽,然后制作詞云。

from __future__ import print_function # 使用python3的print方法
from zhihu_oauth import ZhihuClient
import re
import os
import urllib
import time
from bs4 import BeautifulSoup
import pandas as pd #計算用

client = ZhihuClient()
# 登錄
client.load_token('token.pkl') # 加載token文件
id =315498268 # https://www.zhihu.com/question/24400664(長得好看是一種怎么樣的體驗)
question = client.question(id)
print(u"問題:",question.title)
print(u"回答數(shù)量:",question.answer_count)
# 建立存放圖片的文件夾
# os.mkdir(question.title + u"(圖片)")
# path = question.title + u"(圖片)"
# # index = 1 # 圖片序號
jieguo=[]
count=0
for answer in question.answers:
    content = answer.content # 回答內(nèi)容
    # soup = BeautifulSoup(content, features="html.parser")  # 用lxml解析
    # print(content)
    time.sleep(2)
    # print(soup)
    # m=soup.findall("p",content)
    recompile = re.sub(r'[^\u4e00-\u9fa5]','',content)
    # m = re.findall(recompile,content)
    print(count)
    count+=1

    jieguo.append(recompile)
    if(count==200):
        break
    # for i in m:
    #     print(i)
data = pd.DataFrame(jieguo)
print(data.shape)
csv_headers = ['comment']
data.to_csv('./zzx.csv', header=csv_headers, encoding='utf-8')

示例:

zhihu2.png

所以做詞云還是選擇規(guī)則圖形比較好

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末糙申,一起剝皮案震驚了整個濱河市宾添,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌柜裸,老刑警劉巖缕陕,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異疙挺,居然都是意外死亡扛邑,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門铐然,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蔬崩,“玉大人,你說我怎么就攤上這事搀暑×ぱ簦” “怎么了?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵自点,是天一觀的道長桐罕。 經(jīng)常有香客問我,道長桂敛,這世上最難降的妖魔是什么功炮? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮术唬,結(jié)果婚禮上薪伏,老公的妹妹穿的比我還像新娘。我一直安慰自己粗仓,他們只是感情好嫁怀,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著借浊,像睡著了一般眶掌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上巴碗,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天,我揣著相機與錄音即寒,去河邊找鬼橡淆。 笑死召噩,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的逸爵。 我是一名探鬼主播具滴,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼师倔!你這毒婦竟也來了构韵?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤趋艘,失蹤者是張志新(化名)和其女友劉穎疲恢,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓷胧,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡显拳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了搓萧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杂数。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖瘸洛,靈堂內(nèi)的尸體忽然破棺而出揍移,到底是詐尸還是另有隱情,我是刑警寧澤反肋,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布那伐,位于F島的核電站,受9級特大地震影響囚玫,放射性物質(zhì)發(fā)生泄漏喧锦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一抓督、第九天 我趴在偏房一處隱蔽的房頂上張望燃少。 院中可真熱鬧,春花似錦铃在、人聲如沸阵具。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽阳液。三九已至,卻和暖如春揣炕,著一層夾襖步出監(jiān)牢的瞬間帘皿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工畸陡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鹰溜,地道東北人虽填。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像曹动,于是被迫代替她去往敵國和親斋日。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 18年11月份至19年4月份收藏夾如何評價步長制藥董事長趙濤花 650 萬美元墓陈,讓其女兒趙雨思進入美國斯坦福大學就...
    Pengoing閱讀 1,264評論 0 0
  • 老鍵盤俠臨終前把小鍵盤俠叫到床前恶守,語重心長道:“你。贡必。兔港。要記住。赊级。押框。西方國家,物價便宜理逊,工資豐厚橡伞。。晋被。工作清閑兑徘,福...
    西西鍋閱讀 332評論 0 0
  • 提及工作,小包(我的朋友)的腦子會發(fā)生化學反應(yīng)羡洛,產(chǎn)生爆炸的狀態(tài)挂脑,頭疼的難以忍受,有時會用酒精灌溉欲侮,澆滅這種爆炸...
    星夜傾聽閱讀 637評論 0 0
  • 這只胖乎乎的小雞崭闲,萌萌的眼睛一眨一眨的,開心地吃食呢威蕉,吃著吃著刁俭,不時還會下一個愛心雞蛋……沒錯,這就是支付寶螞蟻莊...
    爆米花123閱讀 762評論 1 2
  • 喜聞不久又添孫韧涨,果然木林森牍戚。 真主賜予深感恩,不禁為之振奮抖精神虑粥。 原來人生存本真如孝,歷久方會心。 上下求索向天問娩贷,...
    花甲日記閱讀 152評論 0 0