Ontonote5.0數據集獲取與處理

最近為了跑一個Baseline需要用到Ontonote5.0數據集板驳,結果網上基本沒有什么靠譜的獲取和處理教程缤言,明明簡單的一筆的處理進程我用了一星期才處理干凈飒筑,在這里就做個小總結识窿。

一礼预、數據獲取

Ontonote5.0數據集只能在LDC(Linguistic Data Consortium, https://www.ldc.upenn.edu/)獲得超营,LDC語料庫包括阿拉伯語鸳玩、漢語和英語新聞文本、布朗語料庫全文演闭、來自交換機與費舍庫(Fisher Collection)數以百萬計的英語電話語音以及美國英語口語詞匯不跟。LDC的數據版權年自1993年起,每年增加30-36個新的資源米碰。
包括許多NLP領域的重要數據集窝革,如圖:

LDC最火的十個數據集,可見ACE05和Ontonote榜上有名

LDC上大部分數據都要收費吕座,從數百美元到數千美元不等虐译,但也有一些免費數據。但無論需求數據是否免費吴趴,都需要在網站上注冊并加入組織漆诽。因為LDC的宗旨是“Data is licensed to organizations, rather than individuals”,數據應在組織間共享而非個人锣枝。一般國內的科研機構和大學都在LDC上有組織(但是國內好像沒多少人了解這個)厢拭。

1.1 注冊

注冊地址:
https://catalog.ldc.upenn.edu/signup
怎么注冊應該不用寫什么教程吧。

注冊事項

不過需要注意的是撇叁,Organization那里需要檢索自己學校的組織供鸠,這個很重要,選錯了組織他們管理員不讓你進可別賴我沒提醒過陨闹。說回組織回季,一般國內高校都已經注冊過了家制,舉個例子:
北京大學已注冊組織

注冊完之后自動成為guest,此時主界面應該類似這樣:
打碼部分是你的個人信息

他會提醒你的申請信息已經發(fā)給管理員泡一。這時候只需要聯系本校管理員幫你通過驗證加入組織即可。

1.2 通不過驗證怎么辦

前面我也說過觅廓,國內基本對LDC沒什么概念鼻忠,可能大多數學校注冊成為LDC會員也只是圖書館方面的例行訂閱,這時候你顯然不能指望圖書館的人會上這么一個外文網站通過你的申請(這方面浙大就做的特別好杈绸,只有他們圖書館說明了LDC的注冊方式和通過方法)帖蔓。
所以在長時間沒有人通過你的申請之后,你可以選擇給LDC官方發(fā)郵件瞳脓,說明沒有人通過你的申請塑娇,一般LDC會在24小時回復,通過你的申請并告知你你們管理員的情況劫侧。比如我校是管理員畢業(yè)了埋酬,然后他們會請你推薦一位教授作為新的管理員,推薦誰由你個人選擇烧栋,但不管怎么樣你現在已經通過驗證可以獲取數據了写妥。

1.3 請求數據

以Ontonote為例,將頁面拉到最下面审姓,可見:



選擇request data即可珍特,后面就是填填申請表什么的沒有什么操作難度。

二魔吐、數據處理

通過上述一番操作扎筒,我們總算獲取了數據的壓縮包,你以為可以直接用了酬姆?naive嗜桌。你獲取的只是數據的一半,要想使用還需要進一步處理轴踱。
http://cemantix.org/data/ontonotes.html
我們follow這個網站的教程症脂,獲取專門的腳本用于處理數據集。
而最坑的事出現了淫僻,這個網站的script下載鏈接沒了(我就問你心態(tài)崩不崩诱篷,反正我當時走到這里心態(tài)都炸了)。
所幸的是github上還有副本雳灵,你可以在這里獲取處理用的script棕所。
還要注意的一點是,這個腳本是python2.7寫的悯辙,所以記得在python2下面運行琳省,腳本需要同時復制進源文件夾和目標文件夾里面迎吵。

三、數據使用

經過上述一番折騰针贬,我們可以獲取可用的Conll數據文件了击费。
如果需要一個整體的train/test.conll 可以直接使用如下命令:
find . -name "*.gold_conll" -exec cat {} ;>train.conll
跑Baseline需要這么來回折騰真的麻煩。

四桦他、總結

本文主要是筆者在獲取和處理Ontonote5.0數據踩的坑蔫巩。希望以后有人找數據把心態(tài)找崩了的時候看到這個能有點幫助。
最后給說一句快压,(可能會看到的)SDU的同學們需要數據請使用學校給的edu郵箱注冊并提交注冊申請并私信我圆仔,我已經推薦了新的SDU組織管理員可以通過大家的申請。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末蔫劣,一起剝皮案震驚了整個濱河市坪郭,隨后出現的幾起案子,更是在濱河造成了極大的恐慌脉幢,老刑警劉巖歪沃,帶你破解...
    沈念sama閱讀 222,590評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異鸵隧,居然都是意外死亡绸罗,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 95,157評論 3 399
  • 文/潘曉璐 我一進店門豆瘫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來珊蟀,“玉大人,你說我怎么就攤上這事外驱∮模” “怎么了?”我有些...
    開封第一講書人閱讀 169,301評論 0 362
  • 文/不壞的土叔 我叫張陵昵宇,是天一觀的道長磅崭。 經常有香客問我,道長瓦哎,這世上最難降的妖魔是什么砸喻? 我笑而不...
    開封第一講書人閱讀 60,078評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮蒋譬,結果婚禮上割岛,老公的妹妹穿的比我還像新娘。我一直安慰自己犯助,他們只是感情好癣漆,可當我...
    茶點故事閱讀 69,082評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著剂买,像睡著了一般惠爽。 火紅的嫁衣襯著肌膚如雪癌蓖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,682評論 1 312
  • 那天婚肆,我揣著相機與錄音租副,去河邊找鬼。 笑死旬痹,一個胖子當著我的面吹牛附井,可吹牛的內容都是我干的。 我是一名探鬼主播两残,決...
    沈念sama閱讀 41,155評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼把跨!你這毒婦竟也來了人弓?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 40,098評論 0 277
  • 序言:老撾萬榮一對情侶失蹤着逐,失蹤者是張志新(化名)和其女友劉穎崔赌,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體耸别,經...
    沈念sama閱讀 46,638評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡健芭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,701評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了秀姐。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片慈迈。...
    茶點故事閱讀 40,852評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖省有,靈堂內的尸體忽然破棺而出痒留,到底是詐尸還是另有隱情,我是刑警寧澤蠢沿,帶...
    沈念sama閱讀 36,520評論 5 351
  • 正文 年R本政府宣布伸头,位于F島的核電站,受9級特大地震影響舷蟀,放射性物質發(fā)生泄漏恤磷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,181評論 3 335
  • 文/蒙蒙 一野宜、第九天 我趴在偏房一處隱蔽的房頂上張望扫步。 院中可真熱鬧,春花似錦速缨、人聲如沸锌妻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,674評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仿粹。三九已至搁吓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吭历,已是汗流浹背堕仔。 一陣腳步聲響...
    開封第一講書人閱讀 33,788評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留晌区,地道東北人摩骨。 一個月前我還...
    沈念sama閱讀 49,279評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像朗若,于是被迫代替她去往敵國和親恼五。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,851評論 2 361

推薦閱讀更多精彩內容