這是第一階段的復(fù)盤翼闹。
課程第一階段已經(jīng)結(jié)束斑鼻,現(xiàn)在我們來復(fù)盤一下。
首先猎荠,這是一門什么課程坚弱?這是一門幫助同學(xué)們提高學(xué)習(xí)力的課程,不是僅僅教會(huì)大家一些檢索技巧关摇、方法荒叶、立竿見影的課程(當(dāng)然,這也是課程的重要一部分)输虱,而是培養(yǎng)大家終身學(xué)習(xí)能力的課程些楣,這種能力是信息生態(tài)環(huán)境下人們所應(yīng)必須具備的基本能力。它不能立竿見影宪睹,它要改變你的學(xué)習(xí)理念愁茁、學(xué)習(xí)情感、學(xué)習(xí)方法亭病,一旦你的理念改變了鹅很,那么你將擁有超人的學(xué)習(xí)力!
網(wǎng)絡(luò)的發(fā)達(dá)罪帖,已經(jīng)讓人們身處信息海洋而無法自拔促煮,同學(xué)們每天有大量的學(xué)習(xí)任務(wù)、還要見縫插針地刷微信整袁、聊QQ污茵,看干貨文章……那么,你是如何學(xué)習(xí)數(shù)學(xué)葬项、運(yùn)籌學(xué)、博弈論等課程的迹蛤?還是靠老師投喂嗎民珍?你所學(xué)習(xí)的東西,在未來的工作中是如何應(yīng)用的盗飒?它們的應(yīng)用場景是什么嚷量?你了解你所學(xué)的這個(gè)專業(yè)嗎?一年前看過的干貨文章現(xiàn)在還記得多少逆趣?是不是遇到問題時(shí)蝶溶,依然是從頭開始到處找資料?
從心理學(xué)角度和對人類學(xué)習(xí)機(jī)制的研究發(fā)現(xiàn),學(xué)習(xí)是一個(gè)閉環(huán)流程抖所,從信息的輸入梨州、大腦的處理到知識的輸出,流程中的每一環(huán)都缺一不可田轧,以前我們學(xué)習(xí)只輸入暴匠,沒有輸出(解決實(shí)際問題),那么環(huán)就斷了傻粘。
輸入環(huán)節(jié)每窖,我們要克制,杜絕暴飲暴食弦悉,只吃對解決問題有關(guān)的信息窒典,因此,我們要梳理一下自己的信息來源稽莉,做到斷舍離瀑志。
處理環(huán)節(jié)是對信息進(jìn)行批判性接收、組織肩祥、整合和創(chuàng)造的過程后室,這個(gè)過程,我提出來的最基本要求是對你收集到的文章進(jìn)行費(fèi)曼混狠,并將新的知識迭代到你的知識體系中(可以用xMind思維導(dǎo)圖幫助自己梳理)岸霹。
學(xué)習(xí)的輸出就是知識利用環(huán)節(jié),將所學(xué)去解決實(shí)際問題将饺,就是有效的輸出贡避,這樣的所學(xué)才會(huì)真正成為你自己的知識,而不是躺在某個(gè)文件夾或書架旮旯里睡覺的信息予弧。
就以我自己的學(xué)習(xí)為例吧9伟伞(真慚愧,我自己也是在學(xué)習(xí)的路上掖蛤,跟大家在這里分享杀捻,我們教學(xué)相長吧!)
2015年蚓庭,我申請成功一項(xiàng)課題致讥,是一個(gè)將研究生的學(xué)習(xí)、科研及管理三者信息打通器赞,以本體庫形式保存垢袱,以實(shí)現(xiàn)研究生信息智能檢索的知識庫。
申請這個(gè)課題是因?yàn)槲野l(fā)現(xiàn)目前我校的研究生管理在學(xué)習(xí)港柜、科研和在學(xué)期間的各種管理事務(wù)被人為的分開了请契,信息散落在各個(gè)科室和人員手中,卻無法實(shí)現(xiàn)信息的集成,導(dǎo)致各種工作的信息流不暢爽锥,需要一個(gè)智能檢索系統(tǒng)涌韩,能在合適的時(shí)間向合適的人推送信息,在對某個(gè)主題進(jìn)行檢索時(shí)推送與之相關(guān)的其他信息救恨,從而實(shí)現(xiàn)檢索的智能化和信息的完備贸辈,而我意識到本體庫是一個(gè)非常好的解決方案。
好吧肠槽,問題來了擎淤,真是不知天高地厚啊,我只是知道構(gòu)建本體庫是一個(gè)很好的解決方案秸仙,卻對本體庫所知甚少嘴拢。兩年,我必須在兩年時(shí)間完成這個(gè)課題寂纪,怎么辦席吴?
借鑒前人經(jīng)驗(yàn)是最快捷的方式哮翘,于是哎甲,我提出了一系列問題:
誰研究本體?
誰做本體知識庫讲竿?
他們是怎么做的拟杉?
帶著這個(gè)問題庄涡,我先在中國知網(wǎng)數(shù)據(jù)庫中進(jìn)行檢索(先看看國內(nèi)的研究情況)。
用主題=(本體 or Ontology)檢索搬设,不查不知道穴店,一查嚇一跳,從1992年到2015年拿穴,共檢索出6000多篇文章泣洞,手工剔除一些不相關(guān)文獻(xiàn)(諸如約稿等信息),還剩近6000篇默色,這么大量的文獻(xiàn)球凰,超出了我的大腦處理范圍,于是腿宰,我選擇了一個(gè)工具CiteSpace[1]弟蚀,幫我分析,于是酗失,得到了圖1,也知道了我應(yīng)該重點(diǎn)關(guān)注的機(jī)構(gòu)和學(xué)者群體昧绣,當(dāng)然规肴,現(xiàn)在知網(wǎng)把這個(gè)功能做出來了。
接下來,我想知道他們都在具體研究什么拖刃?所以删壮,我將排名前十的機(jī)構(gòu)發(fā)表的文章全部檢索出來,用CiteSpace又做了個(gè)主題聚類兑牡,如圖2所示(當(dāng)然央碟,這個(gè)功能目前知網(wǎng)也給大家提供了)。
額~~~均函,本體構(gòu)建與這么多或陌生或熟悉的詞相關(guān)耙谒洹!@-@ 本體映射苞也、元數(shù)據(jù)洛勉、概念相似度、知識表示如迟、描述邏輯收毫、OWL、Protege……殷勘。從哪下手好呢此再?我的目標(biāo)是構(gòu)建本體知識庫,那么就直奔主題玲销,主題詞=(本體 or 本體庫) and (構(gòu)建 or 系統(tǒng) or 應(yīng)用)输拇,檢索出來的結(jié)果還是不錯(cuò),我發(fā)現(xiàn)了很多我需要的文章痒玩,將這些文章下載到我的文獻(xiàn)管理工具里保存好淳附,并對它們進(jìn)行了分類:
[1]綜述類:幫助我快速了解當(dāng)前本體系統(tǒng)構(gòu)建的研究情況;
[2]方法類:沒有好的方法一切都是瞎忙蠢古,先搞明白構(gòu)建方法奴曙;
[3]工具類:系統(tǒng)設(shè)計(jì)肯定需要工具幫助實(shí)現(xiàn),他們都用什么工具草讶?
[4]實(shí)現(xiàn)類:看看他們是用什么方法洽糟、什么工具、怎么實(shí)現(xiàn)的堕战。
[5]理論研究類:里面一些年代很新的文章坤溃,有的是目前的研究熱點(diǎn),有些是在未來可能會(huì)成為熱點(diǎn)的研究前沿嘱丢,但是目前還在理論研究階段薪介,還未實(shí)現(xiàn)或不成熟,要掌握熱點(diǎn)和前沿越驻,這些文章可是必須要看的汁政,但是對于我來說道偷,首先要搭建起一個(gè)本體庫雛形,所以记劈,得先借鑒已有的本體庫系統(tǒng)勺鸦,架子搭起來之后,要提升本體庫的功能目木,就必須看這些文章了换途,所以可以先把它們下載保存,如圖3所示刽射。
接下來的工作就是先讀綜述军拟,用最快的速度全面了解本體庫構(gòu)建方面的情況,因?yàn)檎业降木C述文章比較老柄冲,所以吻谋,我必須自己去大量閱讀“實(shí)現(xiàn)”類(部分文獻(xiàn)如圖4所示),以了解目前在本體庫建設(shè)方面的實(shí)現(xiàn)案例现横。
通過閱讀發(fā)現(xiàn)漓拾,由于本體的應(yīng)用領(lǐng)域、表達(dá)知識的范圍戒祠、抽象程度骇两、應(yīng)用范圍等存在不同,本體也分為若干類別姜盈,而我要建立的是一種應(yīng)用本體低千,而且,本體的表達(dá)重心直接決定了本體結(jié)構(gòu)馏颂,那些文獻(xiàn)中所構(gòu)建的本體結(jié)構(gòu)從三元組到七元組不等示血,我把它們都捋了一遍,如下圖5所示救拉。
到底我要用幾元組去表達(dá)呢难审?再回頭去看那些文章,專門找那些實(shí)現(xiàn)功能與自己要做的一致或接近的文章亿絮,看不懂的概念重點(diǎn)標(biāo)注告喊,集中查。由于成熟的概念一般不會(huì)在期刊文章中詳細(xì)闡述派昧,那些寫期刊文章的作者會(huì)理所當(dāng)然地把它當(dāng)做別人應(yīng)該懂的東西直接拿來用黔姜,所以,你不要再到期刊里去找答案了蒂萎,這時(shí)候要去找圖書秆吵、找百科,我優(yōu)先找了wikipedia五慈,wikipedia的起步比百度百科早多了纳寂,所以实苞,那上面的詞條解釋比百度百科強(qiáng)的多。
搞明白上面的元組烈疚,根據(jù)我的功能要求,我選擇了五元組結(jié)構(gòu)聪轿,接下來的問題就是用什么構(gòu)建方法爷肝。當(dāng)時(shí)我們研究團(tuán)隊(duì)里的一個(gè)隊(duì)員正好負(fù)責(zé)這一塊,她開始快速閱讀歸到“方法”類里的文章陆错,又捋了一遍灯抛,這次是很詳細(xì)地捋了一遍,每種方法是怎么樣的音瓷,有什么優(yōu)點(diǎn)对嚼、缺點(diǎn)等,看看我們做出來的目錄(如圖6所示)就知道了绳慎。
捋完后纵竖,我們確定了本體構(gòu)建方法,又邁出了一步杏愤!緊跟著靡砌,問題又來了:用什么工具建?通過前邊文章的閱讀以及對歸到“工具”類里文章的快速閱讀珊楼,比較了各種工具的優(yōu)缺點(diǎn)通殃,特別是對中文的支持情況,我們很快鎖定Protege[2]這個(gè)工具厕宗。
一座大山壓下來——Protege画舌,以前從來沒有用過,我需要快速掌握這個(gè)軟件的使用已慢!于是我首先檢索到它的下載地址曲聂,安裝,然后蛇受,找到Protege的官網(wǎng)句葵,找到Protege的Wikipedia,在那里兢仰,我找到了快速上手的模板文件乍丈,斯坦福大學(xué)的設(shè)計(jì)者真是很貼心,為了幫助我們快速上手把将,做好了一個(gè)pizza的本體文件供大家下載轻专,然后按照他們提供的“說明書”學(xué)習(xí)。
學(xué)會(huì)了工具的基本使用后察蹲,我開始進(jìn)入本體庫的設(shè)計(jì)階段请垛,期間的工作我在此省略萬字催训,部分工作可以看我的目錄(如圖7所示)。
這期間的辛酸一言難盡宗收,首先是中文支持問題漫拭,當(dāng)初選擇Protege時(shí)就是沖著它的中文支持度好,但是我安裝上之后混稽,在屬性顯示上總是出現(xiàn)亂碼采驻,其他地方的漢字顯示正常,為了解決這個(gè)問題匈勋,我利用搜索引擎礼旅,與或非邏輯運(yùn)算、限定詞等十八般武器全用上了洽洁,最后終于在一個(gè)Protege網(wǎng)站上的用戶發(fā)帖中找到了解決辦法痘系,狂汗……。然后就是原來學(xué)的入門級Protege不夠用了饿自,于是我發(fā)現(xiàn)了CSDN上的一個(gè)博主汰翠,大神啊,他做了個(gè)Protege的入門璃俗、進(jìn)階1奴璃、進(jìn)階2,正是我需要的城豁!
在這期間苟穆,為了方便解決本體構(gòu)建方面的疑難雜癥,我最先想到的是咱學(xué)校的計(jì)算機(jī)學(xué)院唱星,因?yàn)轹茫以跈z索文獻(xiàn)時(shí)發(fā)現(xiàn),咱們學(xué)校就有一個(gè)學(xué)生寫過這方面的學(xué)位論文间聊,那么他的導(dǎo)師當(dāng)然是我要請教的重點(diǎn)攒盈!另外,我也在QQ上發(fā)現(xiàn)了一個(gè)本體學(xué)習(xí)群哎榴,加入后立刻感覺找到了組織型豁,因?yàn)椋诖酥吧序颍抑車耐掠洹W(xué)生沒有一個(gè)用Protege的!
開始飘言,我在群里是個(gè)問問題的活躍分子衣形,很幸運(yùn),這個(gè)群里的伙伴都很熱心姿鸿,問的問題都能得到很好的解答谆吴,逐漸的倒源,我也成了回答別人問題的人,我想這應(yīng)該就是分享的要義——人人為我句狼,我為人人笋熬。
從簡單關(guān)系圖到復(fù)雜關(guān)系圖,我一步步的做下來腻菇,遇上問題先檢索突诬,自己解決,解決不了的芜繁,問小伙伴(低級的、自己能解決的問題盡量不麻煩他人)绒极,漸漸有了雛形骏令,省略若干圖……。
架子搭起來后垄提,要對本體進(jìn)行驗(yàn)證榔袋,看看能不能實(shí)現(xiàn)邏輯推理,是否信息揭示全面铡俐,一致性如何凰兑?但是要驗(yàn)證,必須先有一定量的基礎(chǔ)實(shí)體數(shù)據(jù)审丘,數(shù)據(jù)量太少不行吏够,多了呢,手工輸入滩报?太多了锅知,批量導(dǎo)入才行,但是問題又來了脓钾,散落在網(wǎng)站上的大量要手工收集售睹?怎么辦?搜索引擎發(fā)動(dòng)可训,搜索比較了幾款網(wǎng)絡(luò)自動(dòng)抓取工具昌妹,我決定用——八爪魚。哎~~~握截,八爪魚[3]也沒用過飞崖,于是又搜索八爪魚的使用方法,文字版川蒙、視頻版倒是豐富蚜厉,很快我建好了自己的抓取規(guī)則,把研究生院網(wǎng)站上的相關(guān)信息抓了個(gè)干凈畜眨!
好了昼牛,所有要批量導(dǎo)入的信息我都收集起來整理好了术瓮,但是,但是——Protege的導(dǎo)入居然需要安裝插件贰健,居然還要編寫導(dǎo)入規(guī)則胞四!沒有一篇文獻(xiàn)曾經(jīng)告訴我說用Protege構(gòu)建本體需要做這些工作!A娲弧辜伟!實(shí)踐出真知啊脊另!于是我再一次檢索Protege實(shí)體批量導(dǎo)入問題的解決方案导狡,學(xué)習(xí)了MappingMaster[4]語言,編寫了導(dǎo)入規(guī)則偎痛,把excel導(dǎo)入文件的格式按要求做好旱捧,最后用Cellfile功能終于把實(shí)體導(dǎo)入了。驗(yàn)證的結(jié)果還是比較讓人滿意的(如圖8踩麦、圖9所示)枚赡。
當(dāng)然,做到這里還沒有結(jié)束谓谦,當(dāng)實(shí)體量達(dá)到一定量時(shí)贫橙,Protege的推理已經(jīng)慢的無法讓人忍受了,所以反粥,Protege只是用來構(gòu)建本體的工具卢肃,真正實(shí)現(xiàn)基于本體的檢索功能,得用數(shù)據(jù)庫才顿,這是我在前期閱讀文獻(xiàn)時(shí)就知道了的践剂,因此,根據(jù)前人的經(jīng)驗(yàn)娜膘,我選擇了mysql數(shù)據(jù)庫逊脯,術(shù)業(yè)有專攻,數(shù)據(jù)庫我是搞不定的竣贪,在QQ群和計(jì)算機(jī)學(xué)院军洼,我分別拉來一個(gè)伙伴,計(jì)算機(jī)學(xué)院的是一個(gè)即將畢業(yè)的學(xué)生(畢業(yè)后他去了工作節(jié)奏非逞菰酰快的上海匕争,卻依然幫助我完成后續(xù)的工作,在此我再次表示感謝R)QQ群里的應(yīng)該也是一個(gè)學(xué)校的學(xué)生甘桑,對我?guī)椭采醵啵】傊际橇钗页绨莸拇笊衽芎迹驗(yàn)槊保麄兛偰軐⑽倚枰獙?shí)現(xiàn)的意圖很快編程搞定,在我搭建檢索系統(tǒng)德谅、建立與Protege的會(huì)話過程中爹橱,遇上的各種問題,他們都能輕松幫我搞定窄做。
好了愧驱,說到這里,我來個(gè)總結(jié)吧椭盏。
[1]永遠(yuǎn)永遠(yuǎn)不要等到“萬事俱備”時(shí)再去解決問題组砚。
永遠(yuǎn)不要對自己說,我**還沒有學(xué)好呢掏颊,哪還能解決這個(gè)問題惫确,等我學(xué)好了**再去解決吧!要知道蚯舱,那個(gè)問題不會(huì)等你學(xué)好了讓你去解決,它會(huì)被其他人早早解決掩蛤,而在你面前的永遠(yuǎn)是你當(dāng)時(shí)認(rèn)為還不能解決的問題枉昏。所以,未來學(xué)習(xí)的常態(tài)是——做中學(xué)揍鸟,學(xué)中做兄裂!
[2]高效的學(xué)習(xí)過程是一個(gè)完整的閉環(huán),從提出信息需求開始阳藻,對信息源晰奖、信息類型進(jìn)行基本定位,進(jìn)行策略性檢索腥泥,對檢索到的信息內(nèi)容進(jìn)行基本判斷和辨識匾南,對信息進(jìn)行組織管理,費(fèi)曼信息蛔外,最后解決你的問題蛆楞。你一定一定要完整走一圈,再走一圈夹厌,不要在某一段路上來回走豹爹,那么你會(huì)永遠(yuǎn)呆在原地。
[3]三個(gè)臭皮匠頂個(gè)諸葛亮矛纹,永遠(yuǎn)不要忽視團(tuán)隊(duì)的力量臂聋。信息的共享共建、團(tuán)隊(duì)合作、交流孩等、互動(dòng)艾君,這是幫助你快速成長的快捷車道。
[4]文獻(xiàn)的檢索不是一蹴而就瞎访,這個(gè)工作會(huì)隨著研究的深入而不斷的進(jìn)行腻贰,關(guān)于該主題的知識,在你面前就如一顆小型炸彈扒秸,不播演,更形象地說,就如一顆種子伴奥,發(fā)芽写烤,然后隨著你檢索的深入,學(xué)習(xí)的深入拾徙,亭亭如蓋洲炊!而獲取文獻(xiàn)線索的方法多種多樣,有時(shí)是通過搜索引擎發(fā)現(xiàn)尼啡,有時(shí)需要通過文獻(xiàn)的引證關(guān)系得到線索暂衡,有時(shí)是在文獻(xiàn)正文中得到線索……你的檢索詞的選取、檢索工具的選擇都會(huì)隨之不同崖瞭。然后狂巢,非常重要的一點(diǎn):學(xué)習(xí)是一個(gè)不斷迭代的過程,你需要在學(xué)習(xí)的過程中管理好自己的知識庫(那些你費(fèi)曼過的文獻(xiàn)一定要好好保存下來书聚,放進(jìn)你的個(gè)人知識庫中唧领,養(yǎng)成這個(gè)好習(xí)慣,你以后會(huì)偷著樂的雌续!課上我給大家講了如何構(gòu)建一輩子夠用的個(gè)人知識庫體系)斩个。
下一階段,大家就要行動(dòng)起來了驯杜!你要為自己設(shè)定一個(gè)小小的研究目標(biāo)受啥,并為了這個(gè)目標(biāo)而開啟檢索、學(xué)習(xí)鸽心、實(shí)踐腔呜、達(dá)成目標(biāo)的攀登之旅了!