本文介紹了“每日教育動(dòng)態(tài)”想法的產(chǎn)生以及實(shí)現(xiàn)過(guò)程滞诺,分為三部分:想法由來(lái)及實(shí)現(xiàn)效果习霹、實(shí)現(xiàn)步驟和一點(diǎn)想法。
一淋叶、想法由來(lái)及實(shí)現(xiàn)效果
教育學(xué)是一門理論與實(shí)踐相結(jié)合的學(xué)科煞檩,實(shí)踐起來(lái)人人都會(huì),每天打開(kāi)手機(jī)刷個(gè)公眾號(hào)都是完成了一次教育活動(dòng)熏迹。而研究起來(lái)卻比較難受注暗,誰(shuí)都知道教育學(xué)會(huì)涉及到人才培養(yǎng)墓猎、科學(xué)研究和社會(huì)服務(wù),誰(shuí)都知道要從事教育領(lǐng)域的研究無(wú)非就是從教育價(jià)值屡立、教學(xué)理念膨俐、培養(yǎng)目標(biāo)、培養(yǎng)標(biāo)準(zhǔn)焚刺、人才培養(yǎng)模式與過(guò)程乳愉、學(xué)科和專業(yè)建設(shè)、課程體系建設(shè)捕虽、教育教學(xué)質(zhì)量保障坡脐、教育評(píng)估與評(píng)價(jià)、教師績(jī)效管理晌端、教育經(jīng)費(fèi)支出等方面入手恬砂,在特定層級(jí)(基礎(chǔ)教育泻骤、高等教育、職業(yè)教育等等)教育的角度钧椰,對(duì)不同的教育現(xiàn)象進(jìn)行研究符欠。但是希柿,不結(jié)合實(shí)際和實(shí)踐經(jīng)驗(yàn)养筒,也只是對(duì)上面這些概念的某些提法進(jìn)行一下排列組合曾撤,做一些沒(méi)有營(yíng)養(yǎng)的官樣文章罷了挤悉。
實(shí)際和實(shí)踐經(jīng)驗(yàn)從哪里來(lái)呢装悲?要么就是親自去做尚氛,要么就是做過(guò)的人告訴你,要么去看別人寫好的經(jīng)驗(yàn)總結(jié)属瓣。經(jīng)驗(yàn)總是常談常新的,使得搞教育研究的人(或者說(shuō)搞研究的人)需要有一種追熱點(diǎn)的自覺(jué)护昧,熱點(diǎn)從何而來(lái)?主要是新聞捏卓。新聞看不過(guò)來(lái)怎么辦怠晴,那就篩選著看浴捆;新聞分散在各個(gè)網(wǎng)站找不到重點(diǎn)怎么辦选泻,那就把它們聚集起來(lái),方便你找重點(diǎn)梯捕;知道很重要窝撵,但是還是不想看怎么辦碌奉,那就把每天的新聞打包好赐劣,定時(shí)發(fā)給你,感興趣的就點(diǎn)開(kāi)看婉徘,不感興趣的看看標(biāo)題以后遇到類似的事情還可以似曾相似一下盖呼。
基于以上的想法(或者說(shuō)我的自己的需求)碉考,我做了一個(gè)教育新聞聚集器,取名為“每日教育動(dòng)態(tài)”锌仅,每天定時(shí)訪問(wèn)教育部官網(wǎng)热芹、教育網(wǎng)、人民網(wǎng)教育頻道府寒、新聞教育4個(gè)站點(diǎn)株搔,把發(fā)布在他們網(wǎng)站上的教育新聞的整理成一個(gè)郵件纤房,自動(dòng)發(fā)給我。
在這個(gè)郵件里,會(huì)有當(dāng)天教育部官網(wǎng)碰煌、人民網(wǎng)教育頻道和新華教育3個(gè)網(wǎng)頁(yè)滾動(dòng)新聞的所有鏈接芦圾,和教育網(wǎng)頭條新聞的鏈接,不感興趣的過(guò)一遍標(biāo)題碍脏,感興趣的點(diǎn)進(jìn)去看看稍算。
根據(jù)當(dāng)天的內(nèi)容糊探,提取出各個(gè)網(wǎng)站教育新聞的關(guān)鍵詞科平。這一天的新聞在說(shuō)什么瞪慧,一目了然部念。比如昨天新聞的關(guān)鍵詞主要是“就業(yè)”、“招生”查蓉、“志愿”豌研,當(dāng)時(shí)我能夠理解“就業(yè)”唬党,畢竟今年就業(yè)形勢(shì)如此嚴(yán)峻驶拱,保就業(yè)的新聞肯定是這段時(shí)間的頭條屯烦∽す辏“招生”還不太理解翁狐,到了今天高考出分才能夠理解。從這個(gè)角度看闯冷,這個(gè)“每日教育動(dòng)態(tài)”還是有點(diǎn)用的蛇耀,畢竟可以讓人保持一定的教育敏感度纺涤。
另外,在刷公眾號(hào)和微博的時(shí)候看到1-2天前看到過(guò)的內(nèi)容拧咳,還是有點(diǎn)興奮,在一定程度上說(shuō)明這個(gè)“每日教育動(dòng)態(tài)”可以提高獲取教育時(shí)事的效率囚灼。
那么骆膝,這個(gè)東西是怎么做的呢砾淌?
二、實(shí)現(xiàn)步驟
在做之前谭网,我覺(jué)得還是挺簡(jiǎn)單的汪厨,無(wú)非就是寫一個(gè)“爬蟲(chóng)+發(fā)郵件”的Python小程序,但是真上手起來(lái)也需要花費(fèi)不少時(shí)間愉择。對(duì)于實(shí)現(xiàn)步驟劫乱,就不贅述過(guò)程和代碼了,免得影響閱讀量锥涕≈愿辏總結(jié)起來(lái),有以下3個(gè)步驟:
步驟1:網(wǎng)站選取层坠,確認(rèn)為公開(kāi)信息,分析各個(gè)網(wǎng)站的HTML結(jié)構(gòu),編寫各自的爬蟲(chóng)代碼前鹅。我們的“每日教育動(dòng)態(tài)”信息主要來(lái)源于教育部官網(wǎng)葱椭、中國(guó)教育新聞網(wǎng)秦陋、人民網(wǎng)教育頻道大磺、新華教育。
為什么選這幾個(gè)網(wǎng)站锐锣?一是我自己的原因糖声,我的研究范圍偏向宏觀教育政策琉苇,所以教育部官網(wǎng)是要不時(shí)刷一下的抡诞,把信息整合起來(lái)更方便刷。二是這幾個(gè)網(wǎng)站都比較全面、也比較權(quán)威出刷,能代表主流的聲音,少一些信息雜音坷檩。三是網(wǎng)頁(yè)頁(yè)面直接request就可以獲得,爬蟲(chóng)不是很費(fèi)勁句灌。不算import,核心代碼兩行:獲得response、解析HTML(如下)。剩下的都是搬磚的活腹泌,用xpath解析得到相應(yīng)的標(biāo)題侦铜、時(shí)間等信息贡未。
import requests #訪問(wèn)鏈接
from lxml import etree #解析網(wǎng)頁(yè)
response = requests.get(url)
html = etree.HTML(response.content.decode('utf-8'))
步驟2:信息匯總,提取時(shí)間、鏈接等關(guān)鍵信息约啊,構(gòu)造郵件內(nèi)容(如下圖)枢里。在構(gòu)造郵件內(nèi)容之前豆胸,先篩選出當(dāng)日的新聞,并根據(jù)當(dāng)日的新聞內(nèi)容,使用textrank算法提取關(guān)鍵詞擅编,將爬取的內(nèi)容按照網(wǎng)站的順序生成一個(gè)字典數(shù)組锦担,包含網(wǎng)站名字磁椒、關(guān)鍵詞蘸拔、文章標(biāo)題和文章鏈接张遭,并整理成HTML格式歉甚,生成郵件內(nèi)容雪营。
步驟3:定時(shí)自動(dòng)發(fā)送郵件总寒。自動(dòng)發(fā)送郵件在先前的文章中已經(jīng)提到了,不再贅述。我的這個(gè)小程序是在centOS中運(yùn)行的硝清,使用的是系統(tǒng)自帶有crontab來(lái)定期執(zhí)行程序蔗崎,具體可以參考https://www.cnblogs.com/yangjisen/p/13171918.html。我設(shè)置的發(fā)送郵件的時(shí)間是晚上的9點(diǎn)30分门躯,在這個(gè)時(shí)間4個(gè)網(wǎng)頁(yè)基本都完成了當(dāng)日新聞的更新。
三、一點(diǎn)想法
這個(gè)產(chǎn)品本質(zhì)上是一個(gè)新聞聚集器谨读,可以理解為以前的RSS(簡(jiǎn)易信息聚合,最早可以追溯到1995年)匆骗,用一個(gè)膠水語(yǔ)言實(shí)現(xiàn)一個(gè)我出生那年就有的東西并沒(méi)有什么值得驕傲的地方烹吵。做“每日教育動(dòng)態(tài)”的初衷是為了提高我自己的工作和科研效率琼梆,事實(shí)證明還是有點(diǎn)用的,能夠讓自己每天看的那些文獻(xiàn)有一種落地的感覺(jué)曾棕,不至于整天飄在半空中。但是在做的過(guò)程中也著實(shí)花了不少時(shí)間厅瞎,既有學(xué)習(xí)新技術(shù)的快樂(lè)薯酝,也有不務(wù)正業(yè)的懊惱,所用時(shí)間超出了計(jì)劃內(nèi)時(shí)間,還是應(yīng)該把計(jì)劃做得更好一些谬哀,效率再提高一些史煎。
獨(dú)樂(lè)樂(lè)不如眾樂(lè)樂(lè)坦康,如果也有小伙伴跟我一樣有看教育領(lǐng)域新聞的需求滞欠,可以在公眾號(hào)后臺(tái)私信把你的郵箱和用途發(fā)給我筛璧,這樣陨帆,每天晚上9點(diǎn)半都可以收到一份“每日教育動(dòng)態(tài)”哦榆鼠。在每天晚上結(jié)束了一天的工作和學(xué)習(xí)來(lái)上一份教育新聞晚餐,也不失為一件愉快的事~