NTU自2014年就設(shè)立“數(shù)據(jù)管理館員”一職资溃,跟蹤數(shù)據(jù)管理領(lǐng)域的進(jìn)展壕鹉。
2016年4月纤掸,SCG聯(lián)合NTU的行政部門出臺(tái)“研究數(shù)據(jù)管理政策”。SCG為此編寫了“NTU研究數(shù)據(jù)管理模板”抬闯,設(shè)計(jì)了十個(gè)問(wèn)題供老師填寫,每個(gè)問(wèn)題后面都有指南和樣本关筒,并嵌入NTU的科研管理平臺(tái)RIMS溶握,指導(dǎo)教師在線填寫。
除此之外蒸播,SCG每月舉行一次Data Management Workshop睡榆,手把手教老師和研究生如何撰寫項(xiàng)目的數(shù)據(jù)管理計(jì)劃。SCG在2016年去北大和哈佛大學(xué)考察袍榆,最終確定Dataverse為數(shù)據(jù)管理的平臺(tái)胀屿,計(jì)劃明年初正式推出。
這段時(shí)間留在SCG包雀,空閑的時(shí)間就當(dāng)個(gè)小白鼠宿崭,測(cè)試一下Dataverse平臺(tái)。偉耀老師向我詳細(xì)介紹了Dataverse的結(jié)構(gòu):典型的套娃結(jié)構(gòu)才写,很好理解葡兑。
數(shù)據(jù)結(jié)構(gòu)總共分三層:Dataverse(北大翻譯成“數(shù)據(jù)空間”)、Dataset(數(shù)據(jù)集)和File(文檔)赞草。Dataverse下面可以套好多層的Dataverse讹堤,無(wú)限延展下去。最小的那個(gè)套娃就是Dataset數(shù)據(jù)集厨疙,數(shù)據(jù)集就是由很多種格式的File組成洲守。Dataverse可以是個(gè)人主頁(yè)、研究小組沾凄、研究項(xiàng)目梗醇。
頁(yè)面呈現(xiàn)也非常簡(jiǎn)潔。進(jìn)入NTU的Dataverse就可以看到該機(jī)構(gòu)highlight的幾個(gè)Dataverse搭独,比如3D Printers Dataverse, Photography and Design Dataverse, Nanyang University Graduates Name List Dataverse等(我建議正式推出后婴削,可以根據(jù)下載量展示項(xiàng)目。當(dāng)然牙肝,也可以根據(jù)機(jī)構(gòu)的需要highlight某幾個(gè)項(xiàng)目)。左上角是該機(jī)構(gòu)所有的Dataverse被下載的總次數(shù)嗤朴。左邊的分面瀏覽部分有Dataverse配椭、Datasets和Files的總數(shù)。勾選后雹姊,右側(cè)頁(yè)面就會(huì)呈現(xiàn)出相應(yīng)類別的內(nèi)容列表股缸。
特別神奇的是,我的電腦里大部分文字是中文吱雏,而偉耀老師的界面全是英文敦姻。不知道這部分是不是Dataverse做的漢化瘾境,然后根據(jù)電腦系統(tǒng)自動(dòng)給出不同語(yǔ)言的界面。
左側(cè)分面瀏覽的參數(shù)是可以設(shè)定的镰惦,比如出版狀態(tài)迷守、數(shù)據(jù)空間的種類(研究項(xiàng)目、課題組旺入、研究者兑凿、組織或機(jī)構(gòu))、元數(shù)據(jù)來(lái)源(從外部收割來(lái)的茵瘾,還是NTU本身的礼华,或從IR收割來(lái)的)、出版時(shí)間拗秘、作者姓名圣絮、學(xué)科、關(guān)鍵詞雕旨、存儲(chǔ)日期扮匠、主題分類等。師生可以自己勾選想要的參數(shù)奸腺,如果不想看那么多參數(shù)餐禁,就用系統(tǒng)默認(rèn)參數(shù)即可。
我注冊(cè)后突照,在總的NTU Dataverse下建立了自己的Dataverse帮非,叫Ivy Wei Yang Dataverse。這就是教師的研究數(shù)據(jù)總庫(kù)了讹蘑。然后我打算根據(jù)不同的研究項(xiàng)目建立單獨(dú)的Dataverse末盔,于是,在Ivy Wei Yang Dataverse下分別建立了National Gallery Dataverse, National Museum Dataverse, Asian Civilization Museum Dataverse和SG Food Dataverse四個(gè)數(shù)據(jù)空間座慰。
數(shù)據(jù)空間的首頁(yè)圖片在頁(yè)面右側(cè)“編輯Dataverse”中的“主題+小工具”里添加陨舱。
可以為你的主頁(yè)設(shè)計(jì)一個(gè)標(biāo)語(yǔ),以及該標(biāo)語(yǔ)的鏈接版仔,我選擇連到了自己的ORCID游盲。
下面的四個(gè)Dataverse則在“編輯Dataverse”中的“特色Dataverse”中勾選需要顯示的Dataverse。
為了測(cè)試Dataverse的套娃結(jié)構(gòu)蛮粮,我又選擇Asian Civilization Museum Dataverse建立了三個(gè)Sub Dataverse益缎,分別為Trade Dataverse, Tang Shipwreck Dataverse和Inkstick Dataverse。
Trade Dataverse上的slogan是我最近的逛展心得:陶瓷之所以重要然想,因?yàn)樗扔袑?shí)用價(jià)值莺奔,又有美學(xué)價(jià)值,還有考古價(jià)值变泄。然后很臭美的冠名——Ivy令哟。
在Trade Dataverse的Banner下面恼琼,已經(jīng)清楚地展示出了我所建立的四層結(jié)構(gòu):第一層為NTU總Dataverse,第二層為我的Dataverse屏富,第三層為Asian Civilization Museum的Dataverse晴竞,第四層為Trade Dataverse。這樣下去可以套無(wú)數(shù)個(gè)Dataverse役听。就此打住颓鲜,我在Trade Dataverse下直接建立了Dataset,取名“Trade in South East Aisa”典予,該數(shù)據(jù)集下有三個(gè)Files甜滨。
每個(gè)File下面都可以寫描述性文字,還可以加標(biāo)簽瘤袖。在上傳files的過(guò)程中衣摩,就可以直接加description和tags了。但一個(gè)個(gè)輸入description和tag真的很麻煩捂敌,我后來(lái)發(fā)現(xiàn)艾扮,先把所有files上傳之后,點(diǎn)擊多選files占婉,然后在Edit Files下批量加tags非常方便泡嘴,批量Restrict,批量Delete都很方便逆济。
修改完數(shù)據(jù)后酌予,如果不發(fā)布,就保存為草稿奖慌。如果發(fā)布抛虫,系統(tǒng)會(huì)自動(dòng)根據(jù)修改的量來(lái)確定是Version 1.1呢還是Version 2.0。如果新增或刪除files简僧,就是大修改建椰,系統(tǒng)會(huì)自動(dòng)發(fā)布成Version 2.0,如果修改個(gè)tag或權(quán)限岛马,則是小修改棉姐,系統(tǒng)會(huì)詢問(wèn)你是選擇小修改呢Version1.1還是大修改Version 2.0.
如果你上傳的文檔不是像word,excel啦逆,pdf谅海,jpeg那樣的通用文檔,最好寫個(gè)說(shuō)明蹦浦,也就是Documentation,告訴使用數(shù)據(jù)的人撞蜂,如何讀取你的數(shù)據(jù)盲镶。比如我從有道云筆記中導(dǎo)出了一個(gè).ynt的文件侥袜,不熟悉的人并不知知道該如何讀取。于是我在files里加了一個(gè)Documentation.txt的說(shuō)明文檔溉贿,并tag為Documentation枫吧。我的Documentation很簡(jiǎn)單,就寫了一句話:The file type of .ynt can be viewed by the software of Youdao Note(有道云筆記)which can be downloaded from: https://note.youdao.com/宇色。所以九杂,數(shù)據(jù)管理這種看起來(lái)超級(jí)高大上、無(wú)法仰視宣蠕、無(wú)法企及的東西例隆,操作起來(lái)并不困難。很多困難都是紙老虎paper tiger抢蚀,自己設(shè)置的心理障礙比困難本身更難以逾越镀层。
我可以把自己的files設(shè)為不公開(kāi),并設(shè)定如果別人要下載我的非公開(kāi)數(shù)據(jù)需要提供什么信息皿曲。像我這么nice的人一般只要求別人陳述下載原因唱逢,所以我自己設(shè)計(jì)的表格就需要?jiǎng)e人提供:姓名、電郵屋休、機(jī)構(gòu)坞古、職位(這四個(gè)一般系統(tǒng)默認(rèn)),再加上“Please specify your reason”劫樟,這是我自己寫的痪枫。訪問(wèn)者填寫好這些信息后就可以直接下載了,不需要我同意毅哗。因?yàn)镈ataverse本來(lái)就是鼓勵(lì)公開(kāi)的听怕。
我剛才用的是Guest book的目的就是設(shè)定讀者在下載我的數(shù)據(jù)時(shí),需要提供什么信息虑绵。上周五我測(cè)試時(shí)尿瞭,偉耀需要先向我提交請(qǐng)求,我grant之后翅睛,他在下載前才需要填這個(gè)guest book声搁,但今天發(fā)現(xiàn)是先填guest book然后就可以直接下載了,不需要我grant捕发,看來(lái)Venki可能在設(shè)置上做了些改動(dòng)疏旨。
選中數(shù)據(jù)后,點(diǎn)擊“許可+條款”就可以設(shè)置了扎酷。下圖是我設(shè)好的檐涝,可以點(diǎn)擊“Edit Terms Requirements”重新設(shè)定。
使用條款一般是默認(rèn)CC0,也就是署名+非商業(yè)用途谁榜,當(dāng)然幅聘,也可以自己設(shè)計(jì)使用條款。比如保密聲明窃植、特殊權(quán)限帝蒿、引文要求、存放要求巷怜、放棄權(quán)利等葛超。
可以設(shè)置訪問(wèn)條款。比如告訴讀者延塑,我的數(shù)據(jù)為什么不能夠下載绣张,或下載后要怎么合理使用等。也可以詳細(xì)設(shè)置訪問(wèn)地點(diǎn)页畦、原始存檔胖替、可用狀態(tài)等信息。
可以選擇NTU默認(rèn)的guest book豫缨,也可以設(shè)置自己的Ivy guest book独令。
只有兩個(gè)層級(jí)的Dataverse會(huì)顯示下載記錄,一個(gè)是NTU總的Dataverse好芭,顯示的是總下載量燃箭。還有一個(gè)就是你自己的Dataverse總最底層的那個(gè)Dataverse。比如我的下載次數(shù)并不顯示在Ivy Wei Yang Dataverse這一層舍败,而是顯示在National Gallery Dataverse這一層招狸。因?yàn)檫@個(gè)dataverse以下就沒(méi)有sub dataverse了,而是數(shù)據(jù)集dataset了邻薯。
我覺(jué)得這樣有點(diǎn)不太合理裙戏。作為一個(gè)研究者,我當(dāng)然希望看到自己的每個(gè)研究項(xiàng)目被下載了多少次厕诡,也希望看到自己的所有研究項(xiàng)目被下載的總次數(shù)累榜。所以如果能在第二層Dataverse,也就是Ivy Wei Yang Dataverse那個(gè)地方顯示我四個(gè)子項(xiàng)目的總下載次數(shù)是最好的灵嫌。最好首頁(yè)還能有個(gè)排行榜壹罚,列出Top 10的研究團(tuán)隊(duì)的下載次數(shù)。
以上就是我使用Dataverse的心得寿羞。
其實(shí)做數(shù)據(jù)管理最大的難處猖凛,就是讓老師們理解規(guī)范數(shù)據(jù)的好處。像我這樣寫個(gè)blog的行為就是在做數(shù)據(jù)存檔了绪穆,也相當(dāng)于為自己的數(shù)據(jù)做個(gè)Documentation辨泳。以后有人要學(xué)Dataverse時(shí)虱岂,可以參考我這篇一步步做下去。但漠吻,我寫篇blog需要花上一兩個(gè)小時(shí)量瓜,需要梳理思路、需要重新截圖途乃、需要整理文字。這就是routine work之外的工作了扔傅。如何讓老師了解到:花一兩個(gè)小時(shí)或更多的時(shí)間來(lái)整理和存檔數(shù)據(jù)是相當(dāng)有意義的耍共、投資回報(bào)率高的行為,這是一個(gè)困難且長(zhǎng)期的工作猎塞。就像我寫完這篇blog试读,也不知道這些文字將來(lái)能為我省下多少時(shí)間。
還有很大的一塊沒(méi)有測(cè)試荠耽,就是研究組各成員之間的權(quán)限分配钩骇、互動(dòng),以及研究人員離開(kāi)后铝量,之前的編輯歷史是否能有效保存下來(lái)倘屹,都還沒(méi)有測(cè)試。