這篇文章互广,收集了部分我置頂公眾號的所有文章肴裙,統(tǒng)計了文章中使用最多的詞,做成了詞云圖章蚣。
為啥要做這個站欺?
1姨夹、純屬好奇
2、大家知道我有個《不用寫代碼的爬蟲課》矾策,用 web scraper 抓數(shù)據(jù)磷账,短平快,不用寫代碼贾虽,1 分鐘就能設(shè)置好抓取規(guī)則逃糟,剩下就等程序跑完,拿到數(shù)據(jù)蓬豁。所以绰咽,我有時也會抓點數(shù)據(jù)玩玩。
3地粪、好久沒寫代碼了取募,想看看這過程中會遇到哪些問題?自己能不能解決蟆技?(其實需要寫代碼玩敏,是我做之前沒有預(yù)料到的)
制作過程中用的工具:
- 公眾號文章抓取工具:web scraper
- 詞頻統(tǒng)計:1. github-jieba-結(jié)巴分詞 - 精準模式 2.網(wǎng)上抄的 20 行 python 代碼
- 詞云工具:https://wordart.com
- 其他:excel
為了不影響詞云圖的效果,本文已經(jīng)去除了一些常見詞匯质礼,比如
一個 這個 很多 可以 自己 問題 一些 我們 其實 如果 沒有 就是 不是 可能 時候 什么 這樣 他們 那么 知道 覺得 還是 但是 所以 非常 一下 當然 需要 比如 價值 現(xiàn)在 已經(jīng) 事情 因為 然后 各種 這些 或者 存在 認為 這種 為什么 發(fā)現(xiàn) 通過 以前 不會 機會 不要 內(nèi)容 一定 一種 重要 人家 時間 發(fā)展 邏輯 不同 如何 真的 信息 以及 而且 理解 怎么 有些 分享 文章 廣告 簡單 不能 東西 其他 開始 系統(tǒng) 看到 出來 這里 一點 等等等等等
文章中數(shù)據(jù)展示格式為:
1旺聚、公眾號名稱
2、相關(guān)數(shù)據(jù)
3眶蕉、詞云圖
4砰粹、TOP 20 關(guān)鍵詞 | 頻次 | 明白業(yè)余分析
caoz 的夢囈(caozsay)
- 文章數(shù):503
- 字數(shù):1,492,273
- 總閱讀數(shù):10,087,175
- 總點贊數(shù):157,171
曹大的公眾號,多是互聯(lián)網(wǎng)創(chuàng)業(yè)造挽、產(chǎn)品碱璃、數(shù)據(jù)相關(guān),文章曾被馬化騰刽宪,張小龍多次贊賞厘贼,推薦關(guān)注。
(公眾號二維碼藏在詞云圖里面圣拄,發(fā)現(xiàn)了沒嘴秸?)
咪蒙
- 文章數(shù):664
- 字數(shù):1,615,050
- 總閱讀數(shù):92,592,058+ ps:篇篇 10w+ ,這是下限
- 總點贊數(shù):12,154,279+
咪蒙在運營公眾號這個產(chǎn)品上,有很多值得學習的地方——
- 文章如何開頭能吸引人庇谆?
- 如何引導(dǎo)用戶點贊岳掐?
- 如何從讀者生活中獲得文章素材(吸引用戶投稿)?
- 標題文案如何取才能吸引人饭耳?
- 不發(fā)文章時串述,發(fā)純文字,如何讓用戶不失望寞肖,又覺得有趣
……
閱讀文章時纲酗,如何找到對自己有價值的信息衰腌,可以參考曹大的這篇文章 超視角閱讀
學習學習再學習
- 文章數(shù):583
- 字數(shù):1,861,325
- 總閱讀數(shù):21,617,810+
- 總點贊數(shù):213,448+
笑來老師的《把時間當做朋友》這本書,以及得到專欄觅赊,應(yīng)該幫助了很多人右蕊,里面談到的:時間復(fù)利、注意力吮螺、元認知饶囚、人生商業(yè)模式等等,都對我啟發(fā)很大鸠补。
這個公眾號也是笑來老師的一個輸出渠道萝风。
如果你有以下一些想法,或者困惑:
- 老板給多少錢干多少活
- 這個東西短期沒用紫岩,不學了
- 花大量時間在網(wǎng)上找免費資源
- 為什么要學習工作之外的一些技能
- 金錢 > 時間 > 注意力
建議關(guān)注一下這個公眾號规惰,或者讀一下《把時間當做朋友》這本書。
stormzhang
- 文章數(shù):571
- 字數(shù):1,097,327
- 總閱讀數(shù):8,257,975+
- 總點贊數(shù):252,988+
stormzhang 是半路培訓(xùn)做的 Android 開發(fā)被因,后來轉(zhuǎn)產(chǎn)品管理卿拴,一步一步靠個人努力衫仑,達成今天的成就梨与。
程序員如果突破技術(shù)思維,那就是一個開掛的人生文狱。
這個公眾號活躍度極高粥鞋,里面的內(nèi)容也不拘一格,技術(shù)瞄崇、產(chǎn)品呻粹、職場、投資等等苏研,都是作者一個人維護等浊,推薦關(guān)注,一個不羈的碼農(nóng)摹蘑,相信能給你看待事物不一樣的角度筹燕。
小馬宋
- 文章數(shù):702
- 字數(shù):1,461,853
- 總閱讀數(shù):12,514,708+
- 總點贊數(shù):147,085+
我以前聽到營銷,覺得就是在電視上打廣告衅鹿,沒啥了不起撒踪。
小馬宋老師讓我對營銷有了不一樣的理解。
互聯(lián)網(wǎng)時代大渤,信息爆炸制妄。如果不懂營銷,空有好產(chǎn)品泵三,不能在合適的渠道耕捞、以合適的方式衔掸、展示給合適的用戶,一切都是白搭俺抽。
營銷是個中性詞具篇,不要對它有敵意,如果有凌埂,是一件可怕的事情驱显。
營銷文案寫不好,是因為對產(chǎn)品太無知瞳抓。 —— 小馬宋
剽悍一只貓
- 文章數(shù):906
- 字數(shù):1,827,873
- 總閱讀數(shù):51,177,852+
- 總點贊數(shù):887,796+
貓叔的口頭禪“不行動埃疫,然并卵”,他舉辦的剽悍行動營孩哑,幫助了很多人解決了拖延癥問題栓霜,有效提升了寫作、演講横蜒、讀書三個技能胳蛮。這個行動營很有趣,只招陌生人丛晌。
貓叔的一些文章仅炊,可以作為人生戰(zhàn)略原則參考。比如:讀懂此文的人澎蛛,收獲不止百萬
槽邊往事
- 文章數(shù):1099
- 字數(shù):2,754,656
- 總閱讀數(shù):不詳
- 總點贊數(shù):不詳
因為這個公眾號發(fā)文時間太早抚垄,最初版本的訂閱號,在 URL 方面有很多奇怪的地方谋逻,所以暫時沒有完整抓取到呆馁。
和菜頭是我關(guān)注公眾號里最高產(chǎn)的一位作者,各種文章類型都能駕馭毁兆。
人們從公眾號看到的浙滤,是那個筆耕不輟的和菜頭,嬉笑怒罵气堕,筆下縱橫纺腊。
而在人們看不到的那一面,他是一個互聯(lián)網(wǎng)公司的創(chuàng)始人送巡。10年間摹菠,他做過20多個 APP、2 個網(wǎng)站骗爆、H5小游戲次氨、會員系統(tǒng)等。
羅振宇:“和菜頭時常對我暴起斷喝摘投,如晨鐘般醒腦煮寡『缧睿”
成長
- 文章數(shù):91
- 字數(shù):171,490
- 總閱讀數(shù):300,372+
- 總點贊數(shù):2,958+
徐夢陽是多家互聯(lián)網(wǎng)公司公司的產(chǎn)品經(jīng)理,現(xiàn)在是自由職業(yè)者幸撕。
他平時喜歡研究互聯(lián)網(wǎng)的各種賺錢套路薇组,從詞云圖就可以看出。
信息挖掘坐儿、研究律胀、實踐、分享是公眾號的風格貌矿,爆款文章:[麥當勞改名金拱門炭菌,一小時賺了15000]。(https://mp.weixin.qq.com/s/nurJ2KGkHtX2GG009lf_sQ?)
小北的夢囈
- 文章數(shù):488
- 字數(shù):1,511,719
- 總閱讀數(shù):3,025,755+
- 總點贊數(shù):48,424+
小北是跨境電商領(lǐng)域超級KOL逛漫,公眾號不僅僅分享跨境電商內(nèi)容黑低,互聯(lián)網(wǎng)思維、網(wǎng)站 SEO酌毡、流量玩法克握、產(chǎn)品思維等等,既有道也有術(shù)枷踏。
我雖然不做跨境電商菩暗,前幾天也報了他的線上課。從他的文章中呕寝,能看到他對于趨勢勋眯、流量方面很高的認知水平婴梧,學習一下大牛思考問題的方式下梢,對自己也是一種提升。
做詞云圖的過程中塞蹭,也遇到了一些坑孽江。
1、之前我使用的詞云工具是 http://www.picdata.cn/番电,這個網(wǎng)站是傻瓜操作岗屏,直接將要分析的文字全部丟進去,它會自動統(tǒng)計詞頻并生成詞云圖漱办。
但是這個工具有個缺點这刷,字數(shù)只能限制在 100 w以內(nèi)。而這次的公眾號內(nèi)容字數(shù)娩井,全部都超過了 100 w暇屋,于是這個工具就不靈了。
其他幾個類似工具也不能解決這個字數(shù)過多問題洞辣。
我突然想到咐刨,在 MacTalk 池建強老師的知識星球昙衅,他發(fā)過一個 github 的分詞庫,叫做「結(jié)巴」定鸟,支持各種語言而涉。
我就按圖索驥,找到了這個庫联予。
2啼县、github 上的工具,使用教程都寫的很清楚沸久,我就是照抄谭羔,然后換一下文件名。
后來麦向,我又有一個統(tǒng)計文章字數(shù)的需求瘟裸,然后也是網(wǎng)上搜代碼,搜到一個教程诵竭,巧的是话告,這個教程代碼也是用的「結(jié)巴」這個庫,我也就改改拿著用了卵慰。
互聯(lián)網(wǎng)帶給我們極大的方便沙郭,各種教程源碼,動動手指就能搜到裳朋,略微修改病线,就能用。
3鲤嫡、詞云工具送挑,我最終使用的是:https://wordart.com/。這個網(wǎng)站需要我們提供詞語和對應(yīng)的詞頻暖眼。
這兩項數(shù)據(jù)惕耕,可以通過上一步的「結(jié)巴」分詞工具得出。
將詞語和詞頻填入 wordart 的時候诫肠,我也遇到了問題司澎。無論我怎么輸入,wordart 顯示都錯誤栋豫,我把設(shè)置里各種選項排列組合試了多次挤安,都沒成功。
后來我想到易靈微課上丧鸯,新榜的數(shù)據(jù)分析師張佳曾經(jīng)開過一門數(shù)據(jù)分析課蛤铜,里面講過這個工具,就去請教了他。
他告訴我昂羡,wordart 識別不了手動輸入的 tab 鍵絮记,需要先把數(shù)據(jù)輸入到 excel 里面,然后復(fù)制到 wordart 才行虐先。我按照他的方法怨愤,果然成功了。
有時候自己研究半天蛹批,不如專家一句話撰洗。
福利
之前我寫了用 webscraper 抓取公眾號標題教程后,有朋友問 webscraper 能不能抓取公眾號的所有文章內(nèi)容腐芍?
我研究了一下差导,沒問題。
后來猪勇,又有朋友問设褐,可以把公眾號文章轉(zhuǎn)換成 PDF 嗎?
我研究了半天泣刹,最后得出了結(jié)論:webscraper 做不到這個助析。
但是我發(fā)現(xiàn),公眾號導(dǎo)出 PDF 這個需求椅您,好像挺多人需要外冀。于是就找了一個全棧技術(shù)大牛,讓他看看能不能寫程序?qū)崿F(xiàn)這個掀泳。
過了幾天雪隧,他給我發(fā)來一段程序,我運行了一下员舵,驚呆了脑沿。
導(dǎo)出的公眾號文章 PDF 排版和原文一模一樣。(公眾號后臺回復(fù)“PDF”固灵,可以查看示例)
不僅如此捅伤,這個程序連閱讀數(shù)、點贊數(shù)都可以抓巫玻,太牛逼了,看下面圖片祠汇。
我查了一下仍秤,現(xiàn)在市面上的導(dǎo)出公眾號文章的工具,基本都是收費的可很,而且價格還不低诗力。
淘寶上的店鋪價格:
大概算下來,一個公眾號大概需要 40 塊錢,文章數(shù)多的話苇本,可能會更多袜茧。
提供抓取公眾號閱讀數(shù)、點贊數(shù)的商家比較少瓣窄,新榜提供公眾號回采功能:
例如:抓取「caoz的夢囈」公眾號笛厦,選擇抓取全部文章,300 榜豆俺夕。
1 榜豆 = 1 元I淹埂!劝贸!
好像確實有點貴姨谷。
馬上雙 11 了,我也湊個熱鬧映九,11.11 之前梦湘,免費幫讀者抓取任意一個公眾號所有文章并轉(zhuǎn)換為 PDF 或者 html 或者全部文章的閱讀、點贊數(shù)據(jù)件甥。
如果覺得本文有幫助践叠,可以分享給朋友哈。
知識星球精選站嚼蚀,是我做的一個網(wǎng)站禁灼,大家有興趣可以看看。