用Python自動(dòng)收集并生成每日教育動(dòng)態(tài)

本文介紹了“每日教育動(dòng)態(tài)”想法的產(chǎn)生以及實(shí)現(xiàn)過(guò)程滞诺，分為三部分：想法由來(lái)及實(shí)現(xiàn)效果习霹、實(shí)現(xiàn)步驟和一點(diǎn)想法。

一淋叶、想法由來(lái)及實(shí)現(xiàn)效果

教育學(xué)是一門理論與實(shí)踐相結(jié)合的學(xué)科煞檩，實(shí)踐起來(lái)人人都會(huì)，每天打開(kāi)手機(jī)刷個(gè)公眾號(hào)都是完成了一次教育活動(dòng)熏迹。而研究起來(lái)卻比較難受注暗，誰(shuí)都知道教育學(xué)會(huì)涉及到人才培養(yǎng)墓猎、科學(xué)研究和社會(huì)服務(wù)，誰(shuí)都知道要從事教育領(lǐng)域的研究無(wú)非就是從教育價(jià)值屡立、教學(xué)理念膨俐、培養(yǎng)目標(biāo)、培養(yǎng)標(biāo)準(zhǔn)焚刺、人才培養(yǎng)模式與過(guò)程乳愉、學(xué)科和專業(yè)建設(shè)、課程體系建設(shè)捕虽、教育教學(xué)質(zhì)量保障坡脐、教育評(píng)估與評(píng)價(jià)、教師績(jī)效管理晌端、教育經(jīng)費(fèi)支出等方面入手恬砂，在特定層級(jí)（基礎(chǔ)教育泻骤、高等教育、職業(yè)教育等等）教育的角度钧椰，對(duì)不同的教育現(xiàn)象進(jìn)行研究符欠。但是希柿，不結(jié)合實(shí)際和實(shí)踐經(jīng)驗(yàn)养筒，也只是對(duì)上面這些概念的某些提法進(jìn)行一下排列組合曾撤，做一些沒(méi)有營(yíng)養(yǎng)的官樣文章罷了挤悉。

實(shí)際和實(shí)踐經(jīng)驗(yàn)從哪里來(lái)呢装悲？要么就是親自去做尚氛，要么就是做過(guò)的人告訴你，要么去看別人寫好的經(jīng)驗(yàn)總結(jié)属瓣。經(jīng)驗(yàn)總是常談常新的，使得搞教育研究的人（或者說(shuō)搞研究的人）需要有一種追熱點(diǎn)的自覺(jué)护昧，熱點(diǎn)從何而來(lái)？主要是新聞捏卓。新聞看不過(guò)來(lái)怎么辦怠晴，那就篩選著看浴捆；新聞分散在各個(gè)網(wǎng)站找不到重點(diǎn)怎么辦选泻，那就把它們聚集起來(lái)，方便你找重點(diǎn)梯捕；知道很重要窝撵，但是還是不想看怎么辦碌奉，那就把每天的新聞打包好赐劣，定時(shí)發(fā)給你，感興趣的就點(diǎn)開(kāi)看婉徘，不感興趣的看看標(biāo)題以后遇到類似的事情還可以似曾相似一下盖呼。

基于以上的想法（或者說(shuō)我的自己的需求）碉考，我做了一個(gè)教育新聞聚集器，取名為“每日教育動(dòng)態(tài)”锌仅，每天定時(shí)訪問(wèn)教育部官網(wǎng)热芹、教育網(wǎng)、人民網(wǎng)教育頻道府寒、新聞教育4個(gè)站點(diǎn)株搔，把發(fā)布在他們網(wǎng)站上的教育新聞的整理成一個(gè)郵件纤房，自動(dòng)發(fā)給我。

在這個(gè)郵件里，會(huì)有當(dāng)天教育部官網(wǎng)碰煌、人民網(wǎng)教育頻道和新華教育3個(gè)網(wǎng)頁(yè)滾動(dòng)新聞的所有鏈接芦圾，和教育網(wǎng)頭條新聞的鏈接，不感興趣的過(guò)一遍標(biāo)題碍脏，感興趣的點(diǎn)進(jìn)去看看稍算。

根據(jù)當(dāng)天的內(nèi)容糊探，提取出各個(gè)網(wǎng)站教育新聞的關(guān)鍵詞科平。這一天的新聞在說(shuō)什么瞪慧，一目了然部念。比如昨天新聞的關(guān)鍵詞主要是“就業(yè)”、“招生”查蓉、“志愿”豌研，當(dāng)時(shí)我能夠理解“就業(yè)”唬党，畢竟今年就業(yè)形勢(shì)如此嚴(yán)峻驶拱，保就業(yè)的新聞肯定是這段時(shí)間的頭條屯烦∽す辏“招生”還不太理解翁狐，到了今天高考出分才能夠理解。從這個(gè)角度看闯冷，這個(gè)“每日教育動(dòng)態(tài)”還是有點(diǎn)用的蛇耀，畢竟可以讓人保持一定的教育敏感度纺涤。

另外，在刷公眾號(hào)和微博的時(shí)候看到1-2天前看到過(guò)的內(nèi)容拧咳，還是有點(diǎn)興奮，在一定程度上說(shuō)明這個(gè)“每日教育動(dòng)態(tài)”可以提高獲取教育時(shí)事的效率囚灼。

那么骆膝，這個(gè)東西是怎么做的呢砾淌？

二、實(shí)現(xiàn)步驟

在做之前谭网，我覺(jué)得還是挺簡(jiǎn)單的汪厨，無(wú)非就是寫一個(gè)“爬蟲(chóng)+發(fā)郵件”的Python小程序，但是真上手起來(lái)也需要花費(fèi)不少時(shí)間愉择。對(duì)于實(shí)現(xiàn)步驟劫乱，就不贅述過(guò)程和代碼了~~，免得影響閱讀量~~锥涕≈愿辏總結(jié)起來(lái)，有以下3個(gè)步驟：

步驟1：網(wǎng)站選取层坠，確認(rèn)為公開(kāi)信息，分析各個(gè)網(wǎng)站的HTML結(jié)構(gòu)，編寫各自的爬蟲(chóng)代碼前鹅。我們的“每日教育動(dòng)態(tài)”信息主要來(lái)源于教育部官網(wǎng)葱椭、中國(guó)教育新聞網(wǎng)秦陋、人民網(wǎng)教育頻道大磺、新華教育。

為什么選這幾個(gè)網(wǎng)站锐锣？一是我自己的原因糖声，我的研究范圍偏向宏觀教育政策琉苇，所以教育部官網(wǎng)是要不時(shí)刷一下的抡诞，把信息整合起來(lái)更方便刷。二是這幾個(gè)網(wǎng)站都比較全面、也比較權(quán)威出刷，能代表主流的聲音，少一些信息雜音坷檩。三是網(wǎng)頁(yè)頁(yè)面直接request就可以獲得，爬蟲(chóng)不是很費(fèi)勁句灌。不算import，核心代碼兩行：獲得response、解析HTML（如下）。剩下的都是搬磚的活腹泌，用xpath解析得到相應(yīng)的標(biāo)題侦铜、時(shí)間等信息贡未。

import requests #訪問(wèn)鏈接
from lxml import etree #解析網(wǎng)頁(yè)

response = requests.get(url)
html = etree.HTML(response.content.decode('utf-8'))

步驟2：信息匯總，提取時(shí)間、鏈接等關(guān)鍵信息约啊，構(gòu)造郵件內(nèi)容（如下圖）枢里。在構(gòu)造郵件內(nèi)容之前豆胸，先篩選出當(dāng)日的新聞，并根據(jù)當(dāng)日的新聞內(nèi)容，使用textrank算法提取關(guān)鍵詞擅编，將爬取的內(nèi)容按照網(wǎng)站的順序生成一個(gè)字典數(shù)組锦担，包含網(wǎng)站名字磁椒、關(guān)鍵詞蘸拔、文章標(biāo)題和文章鏈接张遭，并整理成HTML格式歉甚，生成郵件內(nèi)容雪营。

步驟3：定時(shí)自動(dòng)發(fā)送郵件总寒。自動(dòng)發(fā)送郵件在先前的文章中已經(jīng)提到了，不再贅述。我的這個(gè)小程序是在centOS中運(yùn)行的硝清，使用的是系統(tǒng)自帶有crontab來(lái)定期執(zhí)行程序蔗崎，具體可以參考https://www.cnblogs.com/yangjisen/p/13171918.html。我設(shè)置的發(fā)送郵件的時(shí)間是晚上的9點(diǎn)30分门躯，在這個(gè)時(shí)間4個(gè)網(wǎng)頁(yè)基本都完成了當(dāng)日新聞的更新。

三、一點(diǎn)想法

這個(gè)產(chǎn)品本質(zhì)上是一個(gè)新聞聚集器谨读，可以理解為以前的RSS（簡(jiǎn)易信息聚合，最早可以追溯到1995年）匆骗，用一個(gè)膠水語(yǔ)言實(shí)現(xiàn)一個(gè)我出生那年就有的東西并沒(méi)有什么值得驕傲的地方烹吵。做“每日教育動(dòng)態(tài)”的初衷是為了提高我自己的工作和科研效率琼梆，事實(shí)證明還是有點(diǎn)用的，能夠讓自己每天看的那些文獻(xiàn)有一種落地的感覺(jué)曾棕，不至于整天飄在半空中。但是在做的過(guò)程中也著實(shí)花了不少時(shí)間厅瞎，既有學(xué)習(xí)新技術(shù)的快樂(lè)薯酝，也有不務(wù)正業(yè)的懊惱，所用時(shí)間超出了計(jì)劃內(nèi)時(shí)間，還是應(yīng)該把計(jì)劃做得更好一些谬哀，效率再提高一些史煎。

獨(dú)樂(lè)樂(lè)不如眾樂(lè)樂(lè)坦康，如果也有小伙伴跟我一樣有看教育領(lǐng)域新聞的需求滞欠，可以在公眾號(hào)后臺(tái)私信把你的郵箱和用途發(fā)給我筛璧，這樣陨帆，每天晚上9點(diǎn)半都可以收到一份“每日教育動(dòng)態(tài)”哦榆鼠。在每天晚上結(jié)束了一天的工作和學(xué)習(xí)來(lái)上一份教育新聞晚餐，也不失為一件愉快的事~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末彼硫，一起剝皮案震驚了整個(gè)濱河市炊豪，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌拧篮，老刑警劉巖词渤，帶你破解...
沈念sama閱讀 210,914評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異串绩，居然都是意外死亡缺虐，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,935評(píng)論 2贊 383
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門礁凡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)高氮，“玉大人慧妄，你說(shuō)我怎么就攤上這事〖羯郑” “怎么了塞淹？”我有些...
開(kāi)封第一講書人閱讀 156,531評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)罪裹。經(jīng)常有香客問(wèn)我饱普，道長(zhǎng)，這世上最難降的妖魔是什么状共？我笑而不...
開(kāi)封第一講書人閱讀 56,309評(píng)論 1贊 282
?港島之戀（遺憾婚禮）
正文為了忘掉前任套耕，我火速辦了婚禮，結(jié)果婚禮上峡继，老公的妹妹穿的比我還像新娘冯袍。我一直安慰自己，他們只是感情好碾牌，可當(dāng)我...
茶點(diǎn)故事閱讀 65,381評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布康愤。她就那樣靜靜地躺著，像睡著了一般小染。火紅的嫁衣襯著肌膚如雪翘瓮。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 49,730評(píng)論 1贊 289
城市分裂傳說(shuō)
那天裤翩，我揣著相機(jī)與錄音，去河邊找鬼调榄。笑死踊赠，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的每庆。我是一名探鬼主播筐带，決...
沈念sama閱讀 38,882評(píng)論 3贊 404
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缤灵！你這毒婦竟也來(lái)了伦籍？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 37,643評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤腮出，失蹤者是張志新（化名）和其女友劉穎帖鸦，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體胚嘲，經(jīng)...
沈念sama閱讀 44,095評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡作儿，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,448評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了馋劈。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片攻锰。...
茶點(diǎn)故事閱讀 38,566評(píng)論 1贊 339
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡晾嘶，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出娶吞，到底是詐尸還是另有隱情垒迂，我是刑警寧澤，帶...
沈念sama閱讀 34,253評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布妒蛇，位于F島的核電站机断，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏材部。R本人自食惡果不足惜毫缆，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,829評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望乐导。院中可真熱鬧苦丁，春花似錦、人聲如沸物臂。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 30,715評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)棵磷。三九已至蛾狗，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間仪媒，已是汗流浹背沉桌。一陣腳步聲響...
開(kāi)封第一講書人閱讀 31,945評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留算吩，地道東北人留凭。一個(gè)月前我還...
沈念sama閱讀 46,248評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像偎巢，于是被迫代替她去往敵國(guó)和親蔼夜。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,440評(píng)論 2贊 348