最近為了跑一個Baseline需要用到Ontonote5.0數據集板驳,結果網上基本沒有什么靠譜的獲取和處理教程缤言,明明簡單的一筆的處理進程我用了一星期才處理干凈飒筑,在這里就做個小總結识窿。
一礼预、數據獲取
Ontonote5.0數據集只能在LDC(Linguistic Data Consortium, https://www.ldc.upenn.edu/)獲得超营,LDC語料庫包括阿拉伯語鸳玩、漢語和英語新聞文本、布朗語料庫全文演闭、來自交換機與費舍庫(Fisher Collection)數以百萬計的英語電話語音以及美國英語口語詞匯不跟。LDC的數據版權年自1993年起,每年增加30-36個新的資源米碰。
包括許多NLP領域的重要數據集窝革,如圖:
LDC上大部分數據都要收費吕座,從數百美元到數千美元不等虐译,但也有一些免費數據。但無論需求數據是否免費吴趴,都需要在網站上注冊并加入組織漆诽。因為LDC的宗旨是“Data is licensed to organizations, rather than individuals”,數據應在組織間共享而非個人锣枝。一般國內的科研機構和大學都在LDC上有組織(但是國內好像沒多少人了解這個)厢拭。
1.1 注冊
注冊地址:
https://catalog.ldc.upenn.edu/signup
怎么注冊應該不用寫什么教程吧。
不過需要注意的是撇叁,Organization那里需要檢索自己學校的組織供鸠,這個很重要,選錯了組織他們管理員不讓你進可別賴我沒提醒過陨闹。說回組織回季,一般國內高校都已經注冊過了家制,舉個例子:
注冊完之后自動成為guest,此時主界面應該類似這樣:
他會提醒你的申請信息已經發(fā)給管理員泡一。這時候只需要聯系本校管理員幫你通過驗證加入組織即可。
1.2 通不過驗證怎么辦
前面我也說過觅廓,國內基本對LDC沒什么概念鼻忠,可能大多數學校注冊成為LDC會員也只是圖書館方面的例行訂閱,這時候你顯然不能指望圖書館的人會上這么一個外文網站通過你的申請(這方面浙大就做的特別好杈绸,只有他們圖書館說明了LDC的注冊方式和通過方法)帖蔓。
所以在長時間沒有人通過你的申請之后,你可以選擇給LDC官方發(fā)郵件瞳脓,說明沒有人通過你的申請塑娇,一般LDC會在24小時回復,通過你的申請并告知你你們管理員的情況劫侧。比如我校是管理員畢業(yè)了埋酬,然后他們會請你推薦一位教授作為新的管理員,推薦誰由你個人選擇烧栋,但不管怎么樣你現在已經通過驗證可以獲取數據了写妥。
1.3 請求數據
以Ontonote為例,將頁面拉到最下面审姓,可見:
選擇request data即可珍特,后面就是填填申請表什么的沒有什么操作難度。
二魔吐、數據處理
通過上述一番操作扎筒,我們總算獲取了數據的壓縮包,你以為可以直接用了酬姆?naive嗜桌。你獲取的只是數據的一半,要想使用還需要進一步處理轴踱。
http://cemantix.org/data/ontonotes.html
我們follow這個網站的教程症脂,獲取專門的腳本用于處理數據集。
而最坑的事出現了淫僻,這個網站的script下載鏈接沒了(我就問你心態(tài)崩不崩诱篷,反正我當時走到這里心態(tài)都炸了)。
所幸的是github上還有副本雳灵,你可以在這里獲取處理用的script棕所。
還要注意的一點是,這個腳本是python2.7寫的悯辙,所以記得在python2下面運行琳省,腳本需要同時復制進源文件夾和目標文件夾里面迎吵。
三、數據使用
經過上述一番折騰针贬,我們可以獲取可用的Conll數據文件了击费。
如果需要一個整體的train/test.conll 可以直接使用如下命令:
find . -name "*.gold_conll" -exec cat {} ;>train.conll
跑Baseline需要這么來回折騰真的麻煩。
四桦他、總結
本文主要是筆者在獲取和處理Ontonote5.0數據踩的坑蔫巩。希望以后有人找數據把心態(tài)找崩了的時候看到這個能有點幫助。
最后給說一句快压,(可能會看到的)SDU的同學們需要數據請使用學校給的edu郵箱注冊并提交注冊申請并私信我圆仔,我已經推薦了新的SDU組織管理員可以通過大家的申請。