1 月 10 日,2021 開源知識運動線上研討會成功舉辦。EpiK邀請清華大學(xué)信息技術(shù)研究院副院長邢春曉、中國計算機學(xué)會知識圖譜 SIG 主席入宦、著名知識圖譜專家王昊奮、著名數(shù)據(jù)及知識圖譜公司創(chuàng)始人及項目負(fù)責(zé)人王會珍等重量級嘉賓參與廓俭,各位專家學(xué)者紛紛發(fā)表主題演講云石,為開源知識運動做了不同角度的解讀。
今天我們來分享東北大學(xué)計算機應(yīng)用專業(yè)博士研乒、小牛思拓(北京)科技有限公司汹忠,董事長兼 CEO 王會珍主題演講《數(shù)據(jù)標(biāo)注助力知識獲取》,全文如下:
謝謝主持人的介紹雹熬,感謝Epik的邀請宽菜,很高興參加今天的研討會,今天我的演講題目是數(shù)據(jù)標(biāo)注助力知識獲取竿报,王昊奮老師提到了知識圖譜的構(gòu)建和審核铅乡,邢老師講解了區(qū)塊鏈的發(fā)展趨勢,同時也提及了數(shù)據(jù)體系的構(gòu)建融合烈菌,這種跨領(lǐng)域的數(shù)據(jù)的挖掘應(yīng)用阵幸,包括知識體系的構(gòu)建,實際上所有工作芽世,我是認(rèn)為都是離不開數(shù)據(jù)標(biāo)注的挚赊。
小牛思拓已做了三年的數(shù)據(jù)標(biāo)注服務(wù)了,今天跟大家分享這些年我們在數(shù)據(jù)標(biāo)注方面的經(jīng)驗济瓢。
我是東北大學(xué)自然語言處理實驗室的老師荠割,實驗室從80年開始做自然語言處理。我從碩士博士都是做ROP方向的旺矾,在做算法時蔑鹦,在研究方向上發(fā)現(xiàn),基本上都是在少數(shù)例題做驗證箕宙。但是2012年成立公司做產(chǎn)學(xué)研落地時嚎朽,團隊發(fā)現(xiàn)實際上小數(shù)據(jù)是很難進行落地的,比如說機器翻譯柬帕。以小牛思拓的一個產(chǎn)品小牛翻譯為例哟忍,當(dāng)前可以支持304種語言的互譯室囊,而且翻譯質(zhì)量非常好,這得益于有中英兩億個聚對后臺支撐魁索,用深度學(xué)習(xí)的方法去訓(xùn)練機器翻譯引擎。因此盼铁,在做算法或人工智能方法技術(shù)落地實踐中粗蔚,數(shù)據(jù)標(biāo)注就顯得更加重要。只有高質(zhì)量的帶標(biāo)注的數(shù)據(jù)才能支撐算法學(xué)習(xí)饶火。
什么是數(shù)據(jù)標(biāo)注鹏控?
什么是數(shù)據(jù)標(biāo)注?數(shù)據(jù)標(biāo)注是小牛思拓的重要業(yè)務(wù)之一肤寝。公司一開始定位的是做文本的標(biāo)注当辐。在這個層面,其實大家對圖像和聲音的標(biāo)注會更熟悉鲤看,比如人臉識別標(biāo)注出來加在圖片里缘揪;比如,在線會議可以直接同屏有字幕义桂,這種可以由語音自動轉(zhuǎn)換成文字的標(biāo)注找筝。
下面是文本標(biāo)注的兩個例子,其中一個是從一句話里面能標(biāo)注出來實體慷吊,并要找到兩個實體間的關(guān)系袖裕;另一個是智能語音對話形式很火,如發(fā)布一個問題溉瓶,首先急鳄,我們要理解出來這個問題的意圖是什么,這個問題還有很多種方法堰酿,不管是哪種方式去提問疾宏,我們都可以找到它對應(yīng)的答案,所以這里面是我們一個問句復(fù)述的例子胞锰,給出一個問句灾锯,我們標(biāo)注師要能夠?qū)懗鰜硎畟€句子,不同的說法嗅榕,但是跟這個句子的問題都是一致的顺饮,這個是復(fù)述的例子。
接下來是從圖像凌那、聲音兼雄、文字不同的處理對象,進行一些標(biāo)注的樣例帽蝶,實際上最終的都是要有大量的人工去標(biāo)注好的弃甥,或者是半人工標(biāo)注好的帶標(biāo)數(shù)據(jù)來供機器訓(xùn)練和學(xué)習(xí)。
當(dāng)前有幾千家數(shù)據(jù)標(biāo)注的公司比如京東百度等都有眾包平臺缎玫,通常都是群體智慧趟径,包括區(qū)塊鏈也是加入了很多的群體智慧。這就不得不提數(shù)據(jù)標(biāo)注的重要角色—標(biāo)注師恍箭,來了數(shù)據(jù)任務(wù)的時候,我們就需要給他進行任務(wù)分配,這是傳統(tǒng)模式庞呕。
現(xiàn)在我們新的模式,在兩方面進行處理程帕,第一個住练,在任務(wù)層面,由于有ROP的技術(shù)愁拭,我們會做一些相似任務(wù)的訓(xùn)練分析讲逛,我們認(rèn)為把相似的問題都給同樣的一批人,會提高效率岭埠。另一方面盏混,利用一些自動的技術(shù),比如說我剛才提到的去做關(guān)系抽取惜论,可以做出來一個關(guān)系抽取的模型括饶,對數(shù)據(jù)進行預(yù)處理,然后我去用模型先預(yù)標(biāo)注来涨,預(yù)標(biāo)注的結(jié)果再扔給標(biāo)注師图焰,他們在里面進行審核校正,就可以提高標(biāo)注的效率蹦掐。這個是我們從數(shù)據(jù)模型和人員方面進行的新模式嘗試技羔。
經(jīng)過三年打磨,目前卧抗,我們團隊已形成了完善的數(shù)據(jù)標(biāo)注工作流程藤滥。當(dāng)我們拿到任務(wù)需求時,我們需要與用戶明確標(biāo)注規(guī)范社裆,去試標(biāo)拙绊,用戶認(rèn)可標(biāo)注的方案和報價,彼此達成一致則正式開始標(biāo)注任務(wù)泳秀。
首先标沪,我們會對標(biāo)注師進行培訓(xùn),因為每個數(shù)據(jù)標(biāo)注任務(wù)都是不同的嗜傅,都需要重新進行培訓(xùn)金句。
其次,培訓(xùn)合格后吕嘀,開始實施任務(wù)违寞。實施的過程中我們就會有各種的質(zhì)量的監(jiān)控贞瞒,有去完善標(biāo)注的規(guī)范,再培訓(xùn)趁曼。
再次军浆,并非達成一致后就原封不動地按照客戶給確認(rèn)的規(guī)范執(zhí)行,小牛團隊與客戶是強溝通關(guān)系挡闰,我們不斷的從規(guī)范迭代更新瘾敢,規(guī)范重新定義好以后,我們再培訓(xùn)尿这,再質(zhì)檢,不合格的實時淘汰庆杜。
在標(biāo)注的實施過程射众,我們有自己的標(biāo)注工具,我們會有一些抽檢和埋雷晃财,及時的發(fā)現(xiàn)標(biāo)注師哪塊可能會存在質(zhì)量的不合格風(fēng)險叨橱。再后面還會有一些抽檢,這是在標(biāo)注過程中隨時做得断盛。在確認(rèn)標(biāo)注質(zhì)量合格后會提交給客戶罗洗,客戶這邊進行驗收,最終結(jié)算钢猛,銷毀數(shù)據(jù)伙菜。
當(dāng)前也在考慮是否可通過采用區(qū)塊鏈的技術(shù)保證數(shù)據(jù)的安全,我們現(xiàn)在的處理方式就是提交完客戶以后命迈,我們會把數(shù)據(jù)進行銷毀贩绕,這個是現(xiàn)在整個的標(biāo)注工作流程。
數(shù)據(jù)標(biāo)注如何助力知識獲群摺淑倾?
數(shù)據(jù)標(biāo)注如何來助力知識獲取呢?知識獲取簡單的說征椒,就是我們要用機器獲取知識娇哆,有廣義的知識獲取,如機器里通過不斷的程序運行勃救,不斷的進行知識的積累碍讨,它能夠自動的,像人有理解和舉一反三的能力一樣蒙秒,不斷的對這個知識進行擴充垄开;同時也有狹義的是如我們一直在做得,包括我們知識圖譜的人員也在做的一件事税肪,通過程序和人機交互或者是很多的知識圖譜的工具溉躲,通過專家或者是領(lǐng)域?qū)<襾砣?gòu)建知識庫的過程榜田。
知識獲取的本質(zhì)就是從這種爆炸性的信息里,去甄別判斷锻梳,來提取對我們有用的知識箭券。數(shù)據(jù)標(biāo)注就是知識獲取的一個過程,舉個例子疑枯,比如說你被蒙上眼睛辩块,讓你看到瓶里是空的還是盛滿水,你會怎么做荆永?一種方式是不用把面罩揭開废亭,把手伸到桶里試一下,這個是一種嘗試的方法具钥,另外一種方式是我往里面扔一個東西豆村,聽聽發(fā)出了什么樣的聲音,就能感覺到里面應(yīng)該是有東西的骂删,是一個推理的方式掌动。還有一種,我也不用做什么宁玫,我就詢問一下粗恢,向值得信任的人問:這個桶里是有水嗎?對方告知有水欧瘪,我相信他眷射。
不同的知識的獲取方法,實際上可以對應(yīng)不同的標(biāo)注類型佛掖。比如需要基于感知凭迹,把手伸進去判斷是否有水,這是一個分類標(biāo)注問題苦囱;基于推理的過程需要識別理解篩選歸納嗅绸,可以對應(yīng)到實體的標(biāo)注;比如說我從一句話里面把人名地名結(jié)構(gòu)名標(biāo)注出來撕彤,這是實體的標(biāo)注鱼鸠;在句子里看到內(nèi)容進行推理判斷,如這個到底是人名還是地名羹铅,這是閱讀理解的標(biāo)注蚀狰;還有一個,信任职员,這個可以對應(yīng)信息檢索(有事問百度)麻蹋,我們養(yǎng)成了用搜索引擎的習(xí)慣,這個也是第三個標(biāo)注的類別焊切。
人們會問現(xiàn)在的技術(shù)這么發(fā)達了扮授,當(dāng)前的手段很先進芳室,有爬蟲和自動抽取自動分類,還需要標(biāo)注嗎刹勃?實際上我們可以靠爬蟲對數(shù)據(jù)的來源關(guān)鍵詞怎么得到的堪侯,爬取數(shù)據(jù)要怎么驗證,剛才也提到了驗證也有開源知識圖譜審核的過程荔仁,怎么歸類伍宦,怎么表示,還有自動抽取和分類之前的算法訓(xùn)練數(shù)據(jù)從哪來乏梁,這個是我們現(xiàn)在數(shù)據(jù)標(biāo)注存在的非常重要的意義次洼,能夠去支撐前面的這些問題。
數(shù)據(jù)標(biāo)注是構(gòu)建知識庫必須的手段遇骑,也是知識獲取的一個基礎(chǔ)和保證卖毁,我可以人工標(biāo)注的結(jié)果做算法訓(xùn)練,通過人工標(biāo)注進行知識的校驗质蕉。
如何進行數(shù)據(jù)標(biāo)注?
今天想給大家分享的是從另一個角度來給大家介紹翩肌,一個是什么樣的標(biāo)注服務(wù)是專業(yè)的模暗。標(biāo)注的速度快,標(biāo)注的質(zhì)量好念祭,這個就是專業(yè)嗎兑宇?實際上我們覺得不完全是。專業(yè)的標(biāo)注服務(wù)是什么樣的呢粱坤?
首先服務(wù)前建立合理的標(biāo)注體系隶糕;不是用戶提了一個需求以后,就完全按照客戶的需求或者是客戶給的標(biāo)注說明站玄,原封不動的做這個數(shù)據(jù)標(biāo)注枚驻,我們會在看數(shù)據(jù)的過程中會跟客戶商量,不斷的完善標(biāo)注體系株旷。
之前再登,我們做過上百個項目,發(fā)現(xiàn)實際上在最早建立標(biāo)注規(guī)范的時候晾剖,客戶并沒有審查數(shù)據(jù)锉矢,因此在真實的數(shù)據(jù)場景里,這個標(biāo)注規(guī)范會有千奇百怪覆蓋不到的齿尽,為此沽损,我們會跟客戶一同構(gòu)建標(biāo)注體系。
其次循头,標(biāo)注的原始數(shù)據(jù)绵估;有一些客戶給我們提供的帶標(biāo)的數(shù)據(jù)炎疆,其實里面會有一些問題,比如說會有重復(fù)的壹士,數(shù)據(jù)標(biāo)注是按條計費的磷雇,這對客戶來說是損失,包括里面相似的句子比較多躏救,或者說句子里面覆蓋的領(lǐng)域或者行業(yè)不太充分唯笙,這些我們都會給客戶進行一些建議。
再次盒使,標(biāo)注服務(wù)建立完善的流程崩掘,這個流程也非常重要,是質(zhì)量的一個保證少办。
最后苞慢,為客戶提供強有力的保障;如客戶需要兩天就出標(biāo)注的結(jié)果挽放,從理解規(guī)范培訓(xùn),前面的整個一大套的流程蔓纠,就需要兩天完成辑畦;當(dāng)然客戶有各種各樣的需求,因此要給用戶提供一個強有力的保障腿倚,我們達到這四點纯出,才認(rèn)為數(shù)據(jù)標(biāo)注是一個專業(yè)的。
事實上敷燎,不僅僅是服從和服務(wù)的過程暂筝,我們的標(biāo)注團隊還希望和客戶構(gòu)建一個深度信任的合作伙伴的關(guān)系,來共同做好這件事情硬贯,使得標(biāo)注出來的數(shù)據(jù)有價值焕襟。
在數(shù)據(jù)標(biāo)注過程中有以下幾個環(huán)節(jié)構(gòu)成,每個環(huán)節(jié)都在扮演不同的角色饭豹,比如標(biāo)注師胧洒、標(biāo)注規(guī)范、標(biāo)注系統(tǒng)等等墨状。
有人會問卫漫,什么樣的標(biāo)注師是好的?標(biāo)注師的學(xué)歷分布肾砂,背景列赎,這個雖然重要,但不是最重要的。公司里面有300多個比較穩(wěn)定的兼職標(biāo)注師包吝。這是我們從兩三千人里經(jīng)過培訓(xùn)做任務(wù)篩選下來的饼煞。專業(yè)的標(biāo)注師一定是熱愛標(biāo)注行業(yè),同時充分理解用戶需求诗越。
標(biāo)注流程砖瞧,標(biāo)注流程不是固定的,它會根據(jù)客戶的或者我們的任務(wù)場景需求不斷的去變化嚷狞,如果比較繁雜的數(shù)據(jù)块促,我們可能會先給他一個聚類的環(huán)節(jié),給他聚成堆床未,比如軍事領(lǐng)域聚在一起竭翠,有一些標(biāo)注人員比較擅長理解這個領(lǐng)域的這些數(shù)據(jù),我們就給他分配這樣的標(biāo)注師薇搁。比如說項目進度比較緊張斋扰,像剛才那么一大堆的流程,可能至少有一周的時間啃洋,我們需要根據(jù)客戶的需求來簡化流程传货,保障進度。
除此之外宏娄,標(biāo)注規(guī)范也是比較一個需要關(guān)注的節(jié)點问裕。這是一個必須要經(jīng)過反復(fù)驗證的過程,之前客戶給我們一個規(guī)范半頁紙绝编,在我們做完的時候標(biāo)注規(guī)范已經(jīng)寫了三十多頁了僻澎。因此標(biāo)注規(guī)范是標(biāo)注過程中不斷去完善的貌踏。標(biāo)注規(guī)范要保證它的全面十饥,也要保證標(biāo)注效果。
還有一個就是標(biāo)注規(guī)范的呈現(xiàn)形式祖乳,客戶給我們的往往都是實際上是技術(shù)人員寫的逗堵,比如說算法工程師寫的,如果讓不懂算法的人去看的時候眷昆,就會非常的麻煩蜒秤,所以我們在里面還會有一個過程,就是原始規(guī)范的改寫亚斋,我們會把標(biāo)注規(guī)范呈現(xiàn)的方式作媚,讓標(biāo)注師更容易理解。因此帅刊,在整個標(biāo)注服務(wù)過程中纸泡,我們專業(yè)的標(biāo)注規(guī)范,要有明確的標(biāo)注內(nèi)容赖瞒,標(biāo)注時候的規(guī)律女揭,基本的處理原則蚤假,還有一些注意事項,所以這些都要在規(guī)范里把它都表述的非常清楚吧兔,而且要用通俗易懂的語言來描述出來磷仰。
接著是標(biāo)注系統(tǒng),知識圖譜構(gòu)建的工具境蔼,我們這個標(biāo)注系統(tǒng)實際上之前也開放過灶平。標(biāo)注系統(tǒng)可以完成各種標(biāo)注任務(wù)的,當(dāng)前標(biāo)注系統(tǒng)支持圖象的二倍拉框欧穴,語音轉(zhuǎn)文字的標(biāo)注民逼,還有文本方面的標(biāo)注,如實體的標(biāo)注涮帘,關(guān)系標(biāo)注拼苍,事件的標(biāo)注,包括分類调缨,類型的標(biāo)注疮鲫,問句的意圖標(biāo)注,包括對話的生成等等弦叶。
標(biāo)注系統(tǒng)實際上是為了提高我們標(biāo)注效率的俊犯,這個系統(tǒng)的構(gòu)建實際上就是需要減少標(biāo)注人員在系統(tǒng)外的操作,會根據(jù)任務(wù)在標(biāo)注系統(tǒng)里嵌很多伤哺,比如嵌入搜索結(jié)果燕侠,從百度搜索還有各種搜索引擎的結(jié)果,幫助標(biāo)注師去理解概念立莉,提高標(biāo)注的效率和一致性绢彤,這些都會在標(biāo)注系統(tǒng)里進行考慮。
標(biāo)注過程一定是不斷的反饋更新培訓(xùn)和淘汰的過程蜓耻,單純的一次質(zhì)檢是保證不了質(zhì)量的茫舶,所以在整個的標(biāo)注服務(wù)過程中,構(gòu)建了四重機制刹淌,比如說質(zhì)量的把控饶氏,抽檢,埋雷有勾,多人標(biāo)注疹启,數(shù)據(jù)安全的機制,應(yīng)急的預(yù)案蔼卡,包括人員預(yù)留喊崖,突發(fā)事故的應(yīng)急組等等,另外,我們還會有一些考慮贷祈,包括過程的控制趋急,比如說規(guī)范的適用性,規(guī)范的確認(rèn)改寫势誊,包括培訓(xùn)測試呜达,包括狀態(tài)項目進度的監(jiān)控,包括反饋機制粟耻,包括實施過程等方面查近,總之,通過各種機制挤忙,我們來保證標(biāo)注的質(zhì)量霜威。