小白看2008年至2017年的政府工作報告

最近python真的是風(fēng)頭無兩，朋友圈都擠滿了各種報名python零基礎(chǔ)班的分享鏈接蔫耽。佛性如我放仗，抱著心愛的可樂枸杞也無法做到不悲不喜了，毅然決定開始學(xué)python包警。

考慮到平時對時事政治關(guān)注并不多书幕，借此機(jī)會了解下這些年政府工作報告都寫了些什么也未嘗不可。那就用python來分析下揽趾，2008年至2017年這十年間，政府工作報告都寫了些什么吧苛骨！

一篱瞎、報告中的高頻詞

對于單個字的統(tǒng)計并不能給出太多有效的信息，因此我首先選擇以詞為單位進(jìn)行分析痒芝。這就涉及到了分詞俐筋，目前比較主流的中文分詞工具有中科院分詞系統(tǒng)(NLPIR)、THU Lexical Analyzer for Chinese(THULAC)严衬、ik-analyzer澄者、jieba、ansj等×坏玻考慮到分詞過程中會出現(xiàn)大量的無實質(zhì)含義的代詞赠幕、助詞等語素，添加stopwords列表過濾部分無實意的詞將有助于提高分析的效率询筏，因此我選擇了支持自定義詞典的jieba分詞工具來進(jìn)行后續(xù)的分析榕堰。

下圖的對比結(jié)果（左：原文檔；右：分詞結(jié)果）可以看出來嫌套，分詞工具的結(jié)果基本上是令人滿意的逆屡。當(dāng)然，還是存在部分專有詞匯無法識別踱讨，例如“十八屆六中全會”被識別為了“十八”和“六中全會”魏蔗。如果這種錯誤分詞存在巨大歧義的話，可以考慮添加自定義詞庫進(jìn)行逐個錄入痹筛。

分詞對比

分詞完成之后莺治，考慮以詞云的方式呈現(xiàn)每一年報告中的高頻詞。詞云中每一個詞的大小與其出現(xiàn)的頻次相關(guān)味混，因此詞云可以比較直觀的反映出每份報告中最常被提及的詞匯产雹。生成詞云的工具也有很多，這里使用的是wordcloud工具包翁锡。

2017年報告詞云

下面我羅列了所有十份報告的詞云蔓挖。可以看到馆衔，“發(fā)展”這個詞是所有十份報告中當(dāng)之無愧的第一高頻詞瘟判。聯(lián)想到十九大報告中的“我國社會主要矛盾的變化，沒有改變我們對我國社會主義所處歷史階段的判斷角溃，我國仍處于并將長期處于社會主義初級階段的基本國情沒有變拷获，我國是世界最大發(fā)展中國家的國際地位沒有變〖跸福”嗯匆瓜，我國是世界最大發(fā)展中國家的國際地位沒有變。

十份報告詞云

二未蝌、報告中的名詞關(guān)鍵詞

首先驮吱，關(guān)鍵詞與高頻詞有什么不一樣呢？高頻詞單純只統(tǒng)計了這個詞的出現(xiàn)頻率萧吠，如果沒有添加stopwords左冬，那么最高頻的詞將會是“的”、“是”纸型、“在”之類沒有實意的詞拇砰。所以我們可以看出梅忌，一個詞出現(xiàn)的頻率并不能完全代表這個詞在這篇文章中的關(guān)鍵性。即除破，高頻詞不等于關(guān)鍵詞牧氮。

因此，我將要在下面的文章中繼續(xù)分析各個詞在這篇文章中的關(guān)鍵性（權(quán)重）皂岔。

對于關(guān)鍵詞的抽取蹋笼，分詞工具包實現(xiàn)了兩個算法：TF-IDF算法和TextRank算法。兩種算法都是無監(jiān)督學(xué)習(xí)的算法躁垛，即對文章中的各個詞進(jìn)行打分剖毯，然后輸出分值最高的詞作為關(guān)鍵詞。兩種算法的差異在于教馆，各自的打分策略不同逊谋。

TF-IDF算法基于兩個指標(biāo)（TF和IDF）的乘積進(jìn)行排序。TF為某個詞在本文檔中出現(xiàn)頻率土铺，即本文檔中某詞出現(xiàn)的次數(shù)與本文檔中詞的總數(shù)的商胶滋。IDF（Inverse Document Frequency）則是語料庫中包含某個詞的文檔數(shù)的倒數(shù)。也就是說悲敷，某個詞在本文檔中出現(xiàn)的頻率越高（即TF越大）究恤，某個詞在語料庫中被包含的文檔數(shù)越少（即IDF越大），則某個詞的TF-IDF越大后德，則這個詞在TF-IDF算法中更容易被標(biāo)記為關(guān)鍵詞部宿。

需要注意到，這里面有一個語料庫的存在瓢湃，這個外源性的語料庫將對關(guān)鍵詞抽取的結(jié)果產(chǎn)生影響理张。如果語料庫中存在大量文言文的語料，那么新文化運動之后產(chǎn)生的新詞匯的IDF將會比文言文詞匯的IDF更大绵患，即更容易被標(biāo)記為關(guān)鍵詞雾叭。反之亦然。

TextRank則是完全基于文檔本身進(jìn)行關(guān)鍵詞計算排序的算法落蝙。該算法根據(jù)詞與詞之間的語法和位置關(guān)系织狐，并通過多次迭代得到穩(wěn)定的節(jié)點權(quán)重。其最終結(jié)果與節(jié)點筏勒、節(jié)點與其他節(jié)點的關(guān)聯(lián)性以及與之關(guān)聯(lián)的節(jié)點的權(quán)重相關(guān)赚瘦。限于篇幅（其實是太麻煩）在這里就不贅述TextRank的具體計算步驟。

為了排除外源性的影響奏寨，選擇完全基于文檔本身的關(guān)鍵詞抽取方法——TextRank。

提取了十份報告中的各自排序前30的名詞關(guān)鍵詞鹰服。并對300個關(guān)鍵詞進(jìn)行初步處理病瞳，整合重復(fù)關(guān)鍵詞并刪除其中無明顯指向性的詞語揽咕。基本處理結(jié)束后套菜，得到十份報告最終的名詞關(guān)鍵詞亲善，一共45個詞，見下圖逗柴∮纪罚可以看到“發(fā)展”、“改革”和“經(jīng)濟(jì)”毫無疑問是報告中關(guān)鍵詞前三甲戏溺。

名次關(guān)鍵詞權(quán)重分布圖

為了更好的看出十份報告的逐年趨勢渣蜗，下面將部分關(guān)鍵詞抽取出來單獨加以分析。

根據(jù)十份報告的綜合權(quán)重旷祸，選取排名前五的關(guān)鍵詞進(jìn)行單獨分析耕拷，結(jié)果如下圖⊥邢恚可以看出“發(fā)展”除了2008年的報告以外骚烧，一直是當(dāng)之無愧的第一關(guān)鍵詞。同時闰围，“建設(shè)”的權(quán)重呈現(xiàn)輕微下降的趨勢赃绊。與之相對的是，“改革”的權(quán)重呈現(xiàn)上升的趨勢羡榴。此外碧查，“經(jīng)濟(jì)”作為唯一進(jìn)入前五的行業(yè)關(guān)鍵詞也說明了經(jīng)濟(jì)在我國的重要地位。

排名前五的名詞關(guān)鍵詞權(quán)重分布圖

那么炕矮，各個行業(yè)之間的對比呢么夫？摘取45個關(guān)鍵詞中涉及行業(yè)產(chǎn)業(yè)的關(guān)鍵詞進(jìn)行分析，結(jié)果見下圖肤视。我們可以看到“經(jīng)濟(jì)”的權(quán)重遠(yuǎn)高于其他幾個關(guān)鍵詞档痪。“文化”和“教育”的趨勢基本一致邢滑「“農(nóng)業(yè)”自2015年報告以來沒有進(jìn)入當(dāng)年報告的前30。近年來困后，“安全”開始成為關(guān)注的重點乐纸。

行業(yè)相關(guān)的關(guān)鍵詞權(quán)重分布圖

此外還有一些有趣的發(fā)現(xiàn)，例如下圖摇予。我們可以看到“農(nóng)村”的權(quán)重在十年間呈現(xiàn)下降的趨勢汽绢。同時，“企業(yè)”的權(quán)重自2014年開始呈現(xiàn)上升的趨勢侧戴。

部分關(guān)鍵詞權(quán)重分布圖

三宁昭、報告中的地理名詞

分詞工具在抽取關(guān)鍵詞的同時還實現(xiàn)了詞性篩選的功能跌宛。那么，哪些地方在報告中權(quán)重更高呢积仗？用詞性（地理相關(guān)的詞性）來篩選分詞之后疆拘，再次抽取十份報告的前30個關(guān)鍵詞。經(jīng)過進(jìn)一步的整理篩查之后得到了68個包含地名寂曹、地理術(shù)語和地理相關(guān)詞的關(guān)鍵詞列表哎迄，其分布如下圖所示÷≡玻可以看出漱挚，“香港”和“澳門”作為特別行政區(qū)在報告中的權(quán)重較高。此外匾灶，“上豪饫茫”、“上海浦東新區(qū)”和“濱海新區(qū)”的權(quán)重也很高阶女。讓我比較意外的是颊糜，“海洋”、“陸和翰龋”和“亞歐大陸橋”等關(guān)鍵詞排序也非吵挠悖靠前，細(xì)看發(fā)現(xiàn)這主要體現(xiàn)在2015年的報告中憔杨。

地理相關(guān)名詞權(quán)重分布圖

在這些涉及地理名詞的關(guān)鍵詞中還有一些有意思的發(fā)現(xiàn)鸟赫，如下圖。2014年和2015年的報告中“海洋”的權(quán)重非常高消别，2013年中國劃定了東海防空識別區(qū)抛蚤，開始重視海洋主權(quán)。自2015年的報告開始寻狂，“大國”的權(quán)重開始上升岁经，與之對應(yīng)的是中國越來越積極的參與到全球治理中。

部分地理相關(guān)名詞權(quán)重分布圖

好了蛇券，啰啰嗦嗦寫了這么多缀壤，關(guān)于這十份報告的分析就寫到這里了。最后我想和大家分享點寫這篇文章的感受：這篇文章最不重要的就是結(jié)論纠亚，最有意思的是尋找信息量的過程塘慕。

希望這篇文章可以拋磚引玉，收到大家的意見和建議蒂胞。同時图呢，也為大家學(xué)習(xí)python的過程中增加一點樂趣。

源：本文涉及到的十份政府工作報告（2008年 - 2017年）均來自網(wǎng)站http://www.gov.cn/guowuyuan/baogao.htm

最后編輯于：2018.02.12 07:37:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市蛤织，隨后出現(xiàn)的幾起案子拥娄，更是在濱河造成了極大的恐慌，老刑警劉巖瞳筏，帶你破解...
沈念sama閱讀 212,222評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異牡昆，居然都是意外死亡姚炕，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,455評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門丢烘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來柱宦，“玉大人，你說我怎么就攤上這事播瞳〉Э” “怎么了？”我有些...
開封第一講書人閱讀 157,720評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵赢乓，是天一觀的道長忧侧。經(jīng)常有香客問我，道長牌芋，這世上最難降的妖魔是什么蚓炬？我笑而不...
開封第一講書人閱讀 56,568評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮躺屁，結(jié)果婚禮上肯夏，老公的妹妹穿的比我還像新娘。我一直安慰自己犀暑，他們只是感情好驯击，可當(dāng)我...
茶點故事閱讀 65,696評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著耐亏，像睡著了一般徊都。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上苹熏，一...
開封第一講書人閱讀 49,879評論 1贊 290
城市分裂傳說
那天碟贾，我揣著相機(jī)與錄音，去河邊找鬼轨域。笑死袱耽，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的干发。我是一名探鬼主播朱巨，決...
沈念sama閱讀 39,028評論 3贊 409
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼枉长！你這毒婦竟也來了冀续？” 一聲冷哼從身側(cè)響起琼讽，我...
開封第一講書人閱讀 37,773評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎洪唐，沒想到半個月后钻蹬，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,220評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡凭需，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,550評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年问欠，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粒蜈。...
茶點故事閱讀 38,697評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡顺献，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出枯怖，到底是詐尸還是另有隱情注整，我是刑警寧澤，帶...
沈念sama閱讀 34,360評論 4贊 332
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布度硝，位于F島的核電站肿轨，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏塘淑。R本人自食惡果不足惜萝招，卻給世界環(huán)境...
茶點故事閱讀 40,002評論 3贊 315
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望存捺。院中可真熱鬧槐沼，春花似錦、人聲如沸捌治。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,782評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽肖油。三九已至兼吓，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間森枪，已是汗流浹背视搏。一陣腳步聲響...
開封第一講書人閱讀 32,010評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留县袱，地道東北人浑娜。一個月前我還...
沈念sama閱讀 46,433評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像式散，于是被迫代替她去往敵國和親筋遭。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,587評論 2贊 350

小白看2008年至2017年的政府工作報告

一篱瞎、報告中的高頻詞

二未蝌、報告中的名詞關(guān)鍵詞

三宁昭、報告中的地理名詞

推薦閱讀更多精彩內(nèi)容