如何免費獲得高質(zhì)量標注數(shù)據(jù)厢破?

用第一性原理,破解科研數(shù)據(jù)獲取難題治拿。

標注

自從開始了解機器學(xué)習(xí)以后摩泪,想必你已經(jīng)發(fā)現(xiàn),數(shù)據(jù)分析領(lǐng)域劫谅,標注(annotation)是很重要的见坑。

請你再次回顧一下這張圖。

我多次外出講座時捏检,這張圖總能讓與會者感到眼前一亮荞驴。

圖片的原作者是華盛頓大學(xué)的 Pedro Domingos 教授。但是因為許多著名的機器學(xué)習(xí)課程爭相引用贯城,因此現(xiàn)在這張圖已經(jīng)傳遍全網(wǎng)熊楼。

注意這里的機器學(xué)習(xí),實際上是特指“監(jiān)督式”(supervised)能犯。關(guān)于非監(jiān)督式機器學(xué)習(xí)孙蒙,你可以參考《如何用Python從海量文本抽取主題?》一文的介紹悲雳。

這幅圖里面,下方的“Output”實際上是指標記的(annotated)輸出結(jié)果(labels)香追。監(jiān)督式機器學(xué)習(xí)合瓢,實際上就是要以輸入數(shù)據(jù)和標記,來自動構(gòu)造程序透典,從而可以被用來處理更多的新數(shù)據(jù)晴楔。

所以你看,機器模型能夠?qū)W到規(guī)律峭咒,靠的就是標注税弃。

咱們介紹過的計算機視覺分類,便需要有人來標注物體名稱凑队。例如貓還是狗则果,哆啦A夢還是瓦力。

再比如 IMDB 影片評論數(shù)據(jù),也需要先搞清楚究竟是正向情感西壮,還是負向情感遗增。

當(dāng)然,上面這個 IMDB 評論可以看做是特例款青∽鲂蓿回顧你在豆瓣或者淘寶打分的經(jīng)驗。是不是要寫一條評論的同時抡草,還得提交一個分數(shù)饰及?

你的評論,就是文本輸入康震。

你的打分燎含,就是標記(Annotation)。

對签杈,你已經(jīng)幫助系統(tǒng)做了標注瘫镇。平臺就不需要再找人單獨做標注了。

但是答姥,大部分的數(shù)據(jù)標注铣除,可沒有那么簡易。

你可能需要面對無標注的原始輸入鹦付,一一手工做出標記尚粘。

這種工作一般很枯燥,但是并不太復(fù)雜敲长。

例如貓狗識別郎嫁,或者給車輛勾勒邊緣(用于物體識別,object detection)之類的簡單標記工作祈噪,都已經(jīng)被外包到了低工資水平地區(qū)泽铛。

因為這種標記要求的是常識,并不需要特殊的專業(yè)知識背景辑鲤。

許多研究者為了節(jié)省資金盔腔,甚至?xí)x擇眾包方式。

最典型的月褥,是亞馬遜 Mechanical Turk 弛随。

因為工資水平太低,還專門有學(xué)者撰寫論文宁赤,探討這種標注是否合乎倫理舀透。

問題

然而,有些標注數(shù)據(jù)决左,即便可以獲得愕够,價格也不菲走贪。

例如說,在文獻分析領(lǐng)域链烈,引用目的標注厉斟,就被公認是一種昂貴的數(shù)據(jù)。

每一篇論文强衡,都會有或多或少的參考文獻擦秽。

研究者們很感興趣的一個問題是,作者為什么引用了某一篇文獻漩勤?

引用某些論文感挥,為的是作為工作基礎(chǔ)加以擴展;

有的引用越败,是為了佐證觀點触幼;

有的,卻是為了作為靶子駁斥究飞。

關(guān)于被當(dāng)做靶子的論文置谦,最著名的是薛兆豐教授津津樂道的科斯(Ronald Harry Coase)那一篇,叫做“The Problem of Social Cost”亿傅。

科斯關(guān)于產(chǎn)權(quán)的新觀點一經(jīng)提出媒峡,就因為離經(jīng)叛道被許多人罵。

這其中葵擎,不乏主流經(jīng)濟學(xué)家谅阿。

新晉的學(xué)者閱讀文獻,總能在許多大師經(jīng)典的文末“參考文獻”酬滤,看到科斯的這篇文獻签餐。

于是他們都會感興趣,找來閱讀一看究竟盯串。

看過之后氯檐,大多數(shù)人都覺得科斯的觀點令人無法接受,自然也是撰文大加鞭撻体捏。

可問題是男摧,新寫出來的文章末尾,還是要把科斯的這篇論文當(dāng)做引文译打。

這篇文章,讀過的人越來越多拇颅,科斯的名氣也就越來越大奏司。

文章影響力大了,就會逐漸出現(xiàn)支持的聲音樟插,雖然很微弱韵洋。

而主流共識發(fā)生了遷移后竿刁,科斯一下子就成了挑戰(zhàn)學(xué)術(shù)界的孤膽英雄,直到獲得諾貝爾獎這樣的榮譽搪缨。

咱們先不要考慮這個例子中雙方學(xué)術(shù)觀點的對錯食拜,只觀察一個有趣的現(xiàn)象——許多人之所以會閱讀到科斯的文章,其實是沒有搞清楚他人引用科斯文章的目的副编。

科學(xué)共同體的評價负甸,有點兒像大眾點評。一般來說痹届,一個人人打低分的餐館呻待,會門可羅雀,直到關(guān)門大吉的队腐。

科斯這一篇蚕捉,越被貶低越紅,其實是研究史上的特例柴淘。

也許你不會覺得這是特例迫淹,因為你聽過不少類似的例子。

但是想想看为严,只有這樣的例子敛熬,才有戲劇性,會被記錄了下來梗脾,并且廣為宣傳荸型。

我們更常觀察到的現(xiàn)象,其實是:一個觀點被許多人當(dāng)成謬誤炸茧,最后也被證實為謬誤瑞妇。

例如永動機。

因此梭冠,正確區(qū)分引用目的辕狰,其實在絕大多數(shù)情況下都是有價值的。

要辨別引用目的控漠,也需要找人做標注蔓倍。

以往人們的做法,是高薪雇傭?qū)W術(shù)界的專業(yè)人員盐捷,逐條分析文獻偶翅,以及回顧閱讀引用位置附近的上下文,最終來確定文獻引用目的碉渡。

回憶一下你自己閱讀學(xué)術(shù)論文的速度聚谁,這種工作的效率便可想而知。

標注工作做了幾年滞诺,也就是完成了百十來篇文獻的分析形导,包含幾千條引文的目的標注环疼。成本已經(jīng)高到令人咂舌了。

這顯然不是個好辦法朵耕。

創(chuàng)新

Joint Conference on Digital Libraries (JCDL) 2019 大會上炫隶,我結(jié)識了一位青年學(xué)者。他提供了另外的一種解決途徑阎曹。

我們是在大會第一天的 Tutorial 環(huán)節(jié)認識的伪阶。當(dāng)時的主題是提升研究的可重復(fù)性(Reproducibility),我們都是聽眾芬膝。

我在討論環(huán)節(jié)分享了自己授課過程中使用 Google Colab 的經(jīng)驗望门,他聽了覺得很有價值,會后專門跑過來找我聊锰霜。

我開始還以為他是個博士生筹误。后來看他跟幾位大咖交流帶博士生的經(jīng)驗,才知道以貌取人真是錯的離譜癣缅。

言歸正傳厨剪。他只用了不到一個月的時間,就收集到了與他人幾年工作結(jié)果等量的引用目的標注數(shù)據(jù)友存。標注質(zhì)量非常高祷膳,而且幾乎沒有花錢

他就是 Petr Knoth 屡立,英國開放大學(xué)(Open University)的研究員直晨。 JCDL 2019 “Vannevar Bush 最佳論文獎”得主。

順便提一下膨俐,Vannevar Bush 就是撰寫圖情領(lǐng)域經(jīng)典文獻《誠如所思》(As We May Think)那位勇皇。

下面我們來說說 Petr 的標注數(shù)據(jù)獲取方法。

追問

這是一個典型的“跳出思維約束”的故事焚刺。

他追問了幾個問題:

第一個問題是:為什么標注成本高敛摘?

答案是,必須要雇傭專業(yè)人員乳愉。他們受過嚴格的訓(xùn)練兄淫,才有能力在讀論文的時候,正確識別引用目的蔓姚。試想你讓一個學(xué)古典文學(xué)的人捕虽,去標注化學(xué)文獻,光是那些術(shù)語坡脐,就能讓他不知所措泄私。

第二個問題是:我們真的就只能付費找這些專業(yè)人員嗎?

初看起來,結(jié)果當(dāng)然是沒錯挖滤。

不過,人們似乎忽略了另外一群專業(yè)人士浅役,甚至在這個話題上更有發(fā)言權(quán)的人——論文的作者們斩松。

文獻是誰引用的?

作者啊觉既。

我們傳統(tǒng)智慧里惧盹,有一句“解鈴還須系鈴人”,沒錯吧瞪讼?

既然文獻是他引用的钧椰,那該如何標記引用目的,他想必更清楚符欠。而且作者親自做這個工作嫡霞,效率一定會更高。

第三個問題是:為什么別人不去找作者們標注希柿?

人們想當(dāng)然認為诊沪,作者們都是富有研究經(jīng)驗的學(xué)者,因此時間更加寶貴曾撤。不太可能回應(yīng)這種需求端姚。

他們要是收費的話,會比目前的標注人員更高挤悉。標注需求一方的科研經(jīng)費更加無法支撐渐裸。

這個假設(shè),看似正確装悲。但有一個重要的默認假設(shè)昏鹃,即標注是一件非常麻煩的事情。

沒人愿意做非常麻煩的事兒衅斩,特別是免費地做盆顾。

于是,Petr 提出了最重要的一個追問——標注是不是一定要如此麻煩呢畏梆?

他和研究團隊一直在致力于推動文獻開放和提升科學(xué)學(xué)(Science of Science)研究數(shù)據(jù)的可得性您宪。他們的項目叫做 CORE 。

截止本文撰寫的時候奠涌,他們的系統(tǒng)已經(jīng)采集了 135,539,113 篇論文的全文信息宪巨。你甚至可以直接利用他們提供的 API 進行文本挖掘。

在這個過程中溜畅,他們經(jīng)常和 pdf 文件打交道捏卓,覺得在網(wǎng)頁和正文之間跳轉(zhuǎn)非常的繁瑣。于是他們找到了一種第三方開源工具,可以方便地提取 pdf 的內(nèi)容怠晴,直接以網(wǎng)頁格式來顯示遥金,以便和他們的 Web 系統(tǒng)緊密整合。

Petr 于是就想蒜田,如果我可以讓作者在網(wǎng)頁上方便地一站式看到上下文稿械、文獻記錄和引用目的選項,那這項標注工作的繁瑣程度是不是就大大減低了呢冲粤?

嘗試

他和團隊里的一個小伙子用了不到2個星期的時間美莫,把這個簡單的系統(tǒng)開發(fā)了出來。

有了這個系統(tǒng)之后梯捕,他們隨機選擇了數(shù)千篇論文厢呵,自動抓取了第一作者的聯(lián)系郵箱,然后把請求和對應(yīng)論文標注頁面的鏈接發(fā)送了過去傀顾。

信發(fā)出后襟铭,他們發(fā)現(xiàn),近年發(fā)表論文的作者锣笨,更愿意回應(yīng)他們的請求蝌矛,并且更快速提交結(jié)果。

這很好理解错英,至少因為記憶猶新入撒,作者的標注成本更低嘛。

短短兩周時間椭岩,他們就獲得了數(shù)百份回復(fù)茅逮,積累了5000多條引用目的標注數(shù)據(jù)。

他們幾乎一分錢都沒花判哥。

更有意思的是献雅,有的作者不但快速完成標注,之后還給他們寫信表示感謝塌计。

來信里挺身,作者們紛紛表示這個標注過程,讓他們重新梳理了引用的邏輯和思路锌仅。相當(dāng)于快速地給研究的脈絡(luò)做了個備忘章钾,對未來新項目的開展大有好處。

這热芹,就是一種典型的共贏(win-win)吧贱傀?

不僅如此。這一套方法伊脓,相對于傳統(tǒng)的雇傭?qū)I(yè)人員標記府寒,還具有顯著的可擴展性(Scalability)。

從前多標記一條引文,就需要多花一份成本株搔。

而現(xiàn)在剖淀,只要擴大文獻選擇范圍,系統(tǒng)就可以自動向更多作者發(fā)送標注請求纤房。

邊際成本祷蝌,幾乎是零。

反思

Poster 展示環(huán)節(jié)帆卓,Petr 就著他的展板,給我介紹了整個兒流程米丘。講解的時候手舞足蹈剑令,幽默風(fēng)趣。

我聽完拄查,真有醍醐灌頂之感吁津。

我們大多數(shù)時候,都生活在一個平凡的世界里堕扶,喜歡套用約定俗成的觀念碍脏,來理解和認識它。

因為這樣稍算,比較省腦力典尾。

但是科研過程不一樣。它不應(yīng)該是蕭規(guī)曹隨的糊探。

許多約定俗成的假設(shè)和共識钾埂,用隱含的方式根植于我們思維模型的底層。但它們卻未必正確科平。

這就需要我們不斷反復(fù)追問褥紫,并且調(diào)用第一性原理來重新梳理假設(shè)的關(guān)系鏈條。

大膽假設(shè)瞪慧,小心求證髓考,才是科研的正途。

希望你也能早日做出這樣既有用又有趣的研究弃酌。

延伸閱讀

你可能也會對以下話題感興趣氨菇。點擊鏈接就可以查看。

喜歡別忘了點贊

還可以微信關(guān)注我的公眾號“玉樹芝蘭”(nkwangshuyi)。別忘了加星標聂沙,以免錯過新推送提示秆麸。

題圖:Photo by José Alejandro Cuffia on Unsplash

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市及汉,隨后出現(xiàn)的幾起案子沮趣,更是在濱河造成了極大的恐慌,老刑警劉巖坷随,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件房铭,死亡現(xiàn)場離奇詭異,居然都是意外死亡温眉,警方通過查閱死者的電腦和手機缸匪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來类溢,“玉大人凌蔬,你說我怎么就攤上這事〈忱洌” “怎么了砂心?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蛇耀。 經(jīng)常有香客問我辩诞,道長,這世上最難降的妖魔是什么纺涤? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任躁倒,我火速辦了婚禮驯绎,結(jié)果婚禮上宇姚,老公的妹妹穿的比我還像新娘。我一直安慰自己针肥,他們只是感情好衰抑,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布象迎。 她就那樣靜靜地躺著,像睡著了一般呛踊。 火紅的嫁衣襯著肌膚如雪砾淌。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天谭网,我揣著相機與錄音汪厨,去河邊找鬼。 笑死愉择,一個胖子當(dāng)著我的面吹牛劫乱,可吹牛的內(nèi)容都是我干的织中。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼衷戈,長吁一口氣:“原來是場噩夢啊……” “哼狭吼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起殖妇,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤刁笙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后谦趣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疲吸,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年前鹅,在試婚紗的時候發(fā)現(xiàn)自己被綠了磅氨。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡嫡纠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出延赌,到底是詐尸還是另有隱情除盏,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布挫以,位于F島的核電站者蠕,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏掐松。R本人自食惡果不足惜踱侣,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望大磺。 院中可真熱鬧抡句,春花似錦、人聲如沸杠愧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽流济。三九已至锐锣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绳瘟,已是汗流浹背雕憔。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留糖声,地道東北人斤彼。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓分瘦,卻偏偏與公主長得像,于是被迫代替她去往敵國和親畅卓。 傳聞我的和親對象是個殘疾皇子擅腰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容