用第一性原理,破解科研數(shù)據(jù)獲取難題治拿。
標注
自從開始了解機器學(xué)習(xí)以后摩泪,想必你已經(jīng)發(fā)現(xiàn),數(shù)據(jù)分析領(lǐng)域劫谅,標注(annotation)是很重要的见坑。
請你再次回顧一下這張圖。
我多次外出講座時捏检,這張圖總能讓與會者感到眼前一亮荞驴。
圖片的原作者是華盛頓大學(xué)的 Pedro Domingos 教授。但是因為許多著名的機器學(xué)習(xí)課程爭相引用贯城,因此現(xiàn)在這張圖已經(jīng)傳遍全網(wǎng)熊楼。
注意這里的機器學(xué)習(xí),實際上是特指“監(jiān)督式”(supervised)能犯。關(guān)于非監(jiān)督式機器學(xué)習(xí)孙蒙,你可以參考《如何用Python從海量文本抽取主題?》一文的介紹悲雳。
這幅圖里面,下方的“Output”實際上是指標記的(annotated)輸出結(jié)果(labels)香追。監(jiān)督式機器學(xué)習(xí)合瓢,實際上就是要以輸入數(shù)據(jù)和標記,來自動構(gòu)造程序透典,從而可以被用來處理更多的新數(shù)據(jù)晴楔。
所以你看,機器模型能夠?qū)W到規(guī)律峭咒,靠的就是標注税弃。
咱們介紹過的計算機視覺分類,便需要有人來標注物體名稱凑队。例如貓還是狗则果,哆啦A夢還是瓦力。
再比如 IMDB 影片評論數(shù)據(jù),也需要先搞清楚究竟是正向情感西壮,還是負向情感遗增。
當(dāng)然,上面這個 IMDB 評論可以看做是特例款青∽鲂蓿回顧你在豆瓣或者淘寶打分的經(jīng)驗。是不是要寫一條評論的同時抡草,還得提交一個分數(shù)饰及?
你的評論,就是文本輸入康震。
你的打分燎含,就是標記(Annotation)。
對签杈,你已經(jīng)幫助系統(tǒng)做了標注瘫镇。平臺就不需要再找人單獨做標注了。
但是答姥,大部分的數(shù)據(jù)標注铣除,可沒有那么簡易。
你可能需要面對無標注的原始輸入鹦付,一一手工做出標記尚粘。
這種工作一般很枯燥,但是并不太復(fù)雜敲长。
例如貓狗識別郎嫁,或者給車輛勾勒邊緣(用于物體識別,object detection)之類的簡單標記工作祈噪,都已經(jīng)被外包到了低工資水平地區(qū)泽铛。
因為這種標記要求的是常識,并不需要特殊的專業(yè)知識背景辑鲤。
許多研究者為了節(jié)省資金盔腔,甚至?xí)x擇眾包方式。
最典型的月褥,是亞馬遜 Mechanical Turk 弛随。
因為工資水平太低,還專門有學(xué)者撰寫論文宁赤,探討這種標注是否合乎倫理舀透。
問題
然而,有些標注數(shù)據(jù)决左,即便可以獲得愕够,價格也不菲走贪。
例如說,在文獻分析領(lǐng)域链烈,引用目的標注厉斟,就被公認是一種昂貴的數(shù)據(jù)。
每一篇論文强衡,都會有或多或少的參考文獻擦秽。
研究者們很感興趣的一個問題是,作者為什么引用了某一篇文獻漩勤?
引用某些論文感挥,為的是作為工作基礎(chǔ)加以擴展;
有的引用越败,是為了佐證觀點触幼;
有的,卻是為了作為靶子駁斥究飞。
關(guān)于被當(dāng)做靶子的論文置谦,最著名的是薛兆豐教授津津樂道的科斯(Ronald Harry Coase)那一篇,叫做“The Problem of Social Cost”亿傅。
科斯關(guān)于產(chǎn)權(quán)的新觀點一經(jīng)提出媒峡,就因為離經(jīng)叛道被許多人罵。
這其中葵擎,不乏主流經(jīng)濟學(xué)家谅阿。
新晉的學(xué)者閱讀文獻,總能在許多大師經(jīng)典的文末“參考文獻”酬滤,看到科斯的這篇文獻签餐。
于是他們都會感興趣,找來閱讀一看究竟盯串。
看過之后氯檐,大多數(shù)人都覺得科斯的觀點令人無法接受,自然也是撰文大加鞭撻体捏。
可問題是男摧,新寫出來的文章末尾,還是要把科斯的這篇論文當(dāng)做引文译打。
這篇文章,讀過的人越來越多拇颅,科斯的名氣也就越來越大奏司。
文章影響力大了,就會逐漸出現(xiàn)支持的聲音樟插,雖然很微弱韵洋。
而主流共識發(fā)生了遷移后竿刁,科斯一下子就成了挑戰(zhàn)學(xué)術(shù)界的孤膽英雄,直到獲得諾貝爾獎這樣的榮譽搪缨。
咱們先不要考慮這個例子中雙方學(xué)術(shù)觀點的對錯食拜,只觀察一個有趣的現(xiàn)象——許多人之所以會閱讀到科斯的文章,其實是沒有搞清楚他人引用科斯文章的目的副编。
科學(xué)共同體的評價负甸,有點兒像大眾點評。一般來說痹届,一個人人打低分的餐館呻待,會門可羅雀,直到關(guān)門大吉的队腐。
科斯這一篇蚕捉,越被貶低越紅,其實是研究史上的特例柴淘。
也許你不會覺得這是特例迫淹,因為你聽過不少類似的例子。
但是想想看为严,只有這樣的例子敛熬,才有戲劇性,會被記錄了下來梗脾,并且廣為宣傳荸型。
我們更常觀察到的現(xiàn)象,其實是:一個觀點被許多人當(dāng)成謬誤炸茧,最后也被證實為謬誤瑞妇。
例如永動機。
因此梭冠,正確區(qū)分引用目的辕狰,其實在絕大多數(shù)情況下都是有價值的。
要辨別引用目的控漠,也需要找人做標注蔓倍。
以往人們的做法,是高薪雇傭?qū)W術(shù)界的專業(yè)人員盐捷,逐條分析文獻偶翅,以及回顧閱讀引用位置附近的上下文,最終來確定文獻引用目的碉渡。
回憶一下你自己閱讀學(xué)術(shù)論文的速度聚谁,這種工作的效率便可想而知。
標注工作做了幾年滞诺,也就是完成了百十來篇文獻的分析形导,包含幾千條引文的目的標注环疼。成本已經(jīng)高到令人咂舌了。
這顯然不是個好辦法朵耕。
創(chuàng)新
Joint Conference on Digital Libraries (JCDL) 2019 大會上炫隶,我結(jié)識了一位青年學(xué)者。他提供了另外的一種解決途徑阎曹。
我們是在大會第一天的 Tutorial 環(huán)節(jié)認識的伪阶。當(dāng)時的主題是提升研究的可重復(fù)性(Reproducibility),我們都是聽眾芬膝。
我在討論環(huán)節(jié)分享了自己授課過程中使用 Google Colab 的經(jīng)驗望门,他聽了覺得很有價值,會后專門跑過來找我聊锰霜。
我開始還以為他是個博士生筹误。后來看他跟幾位大咖交流帶博士生的經(jīng)驗,才知道以貌取人真是錯的離譜癣缅。
言歸正傳厨剪。他只用了不到一個月的時間,就收集到了與他人幾年工作結(jié)果等量的引用目的標注數(shù)據(jù)友存。標注質(zhì)量非常高祷膳,而且幾乎沒有花錢。
他就是 Petr Knoth 屡立,英國開放大學(xué)(Open University)的研究員直晨。 JCDL 2019 “Vannevar Bush 最佳論文獎”得主。
順便提一下膨俐,Vannevar Bush 就是撰寫圖情領(lǐng)域經(jīng)典文獻《誠如所思》(As We May Think)那位勇皇。
下面我們來說說 Petr 的標注數(shù)據(jù)獲取方法。
追問
這是一個典型的“跳出思維約束”的故事焚刺。
他追問了幾個問題:
第一個問題是:為什么標注成本高敛摘?
答案是,必須要雇傭專業(yè)人員乳愉。他們受過嚴格的訓(xùn)練兄淫,才有能力在讀論文的時候,正確識別引用目的蔓姚。試想你讓一個學(xué)古典文學(xué)的人捕虽,去標注化學(xué)文獻,光是那些術(shù)語坡脐,就能讓他不知所措泄私。
第二個問題是:我們真的就只能付費找這些專業(yè)人員嗎?
初看起來,結(jié)果當(dāng)然是沒錯挖滤。
不過,人們似乎忽略了另外一群專業(yè)人士浅役,甚至在這個話題上更有發(fā)言權(quán)的人——論文的作者們斩松。
文獻是誰引用的?
作者啊觉既。
我們傳統(tǒng)智慧里惧盹,有一句“解鈴還須系鈴人”,沒錯吧瞪讼?
既然文獻是他引用的钧椰,那該如何標記引用目的,他想必更清楚符欠。而且作者親自做這個工作嫡霞,效率一定會更高。
第三個問題是:為什么別人不去找作者們標注希柿?
人們想當(dāng)然認為诊沪,作者們都是富有研究經(jīng)驗的學(xué)者,因此時間更加寶貴曾撤。不太可能回應(yīng)這種需求端姚。
他們要是收費的話,會比目前的標注人員更高挤悉。標注需求一方的科研經(jīng)費更加無法支撐渐裸。
這個假設(shè),看似正確装悲。但有一個重要的默認假設(shè)昏鹃,即標注是一件非常麻煩的事情。
沒人愿意做非常麻煩的事兒衅斩,特別是免費地做盆顾。
于是,Petr 提出了最重要的一個追問——標注是不是一定要如此麻煩呢畏梆?
他和研究團隊一直在致力于推動文獻開放和提升科學(xué)學(xué)(Science of Science)研究數(shù)據(jù)的可得性您宪。他們的項目叫做 CORE 。
截止本文撰寫的時候奠涌,他們的系統(tǒng)已經(jīng)采集了 135,539,113 篇論文的全文信息宪巨。你甚至可以直接利用他們提供的 API 進行文本挖掘。
在這個過程中溜畅,他們經(jīng)常和 pdf 文件打交道捏卓,覺得在網(wǎng)頁和正文之間跳轉(zhuǎn)非常的繁瑣。于是他們找到了一種第三方開源工具,可以方便地提取 pdf 的內(nèi)容怠晴,直接以網(wǎng)頁格式來顯示遥金,以便和他們的 Web 系統(tǒng)緊密整合。
Petr 于是就想蒜田,如果我可以讓作者在網(wǎng)頁上方便地一站式看到上下文稿械、文獻記錄和引用目的選項,那這項標注工作的繁瑣程度是不是就大大減低了呢冲粤?
嘗試
他和團隊里的一個小伙子用了不到2個星期的時間美莫,把這個簡單的系統(tǒng)開發(fā)了出來。
有了這個系統(tǒng)之后梯捕,他們隨機選擇了數(shù)千篇論文厢呵,自動抓取了第一作者的聯(lián)系郵箱,然后把請求和對應(yīng)論文標注頁面的鏈接發(fā)送了過去傀顾。
信發(fā)出后襟铭,他們發(fā)現(xiàn),近年發(fā)表論文的作者锣笨,更愿意回應(yīng)他們的請求蝌矛,并且更快速提交結(jié)果。
這很好理解错英,至少因為記憶猶新入撒,作者的標注成本更低嘛。
短短兩周時間椭岩,他們就獲得了數(shù)百份回復(fù)茅逮,積累了5000多條引用目的標注數(shù)據(jù)。
他們幾乎一分錢都沒花判哥。
更有意思的是献雅,有的作者不但快速完成標注,之后還給他們寫信表示感謝塌计。
來信里挺身,作者們紛紛表示這個標注過程,讓他們重新梳理了引用的邏輯和思路锌仅。相當(dāng)于快速地給研究的脈絡(luò)做了個備忘章钾,對未來新項目的開展大有好處。
這热芹,就是一種典型的共贏(win-win)吧贱傀?
不僅如此。這一套方法伊脓,相對于傳統(tǒng)的雇傭?qū)I(yè)人員標記府寒,還具有顯著的可擴展性(Scalability)。
從前多標記一條引文,就需要多花一份成本株搔。
而現(xiàn)在剖淀,只要擴大文獻選擇范圍,系統(tǒng)就可以自動向更多作者發(fā)送標注請求纤房。
邊際成本祷蝌,幾乎是零。
反思
Poster 展示環(huán)節(jié)帆卓,Petr 就著他的展板,給我介紹了整個兒流程米丘。講解的時候手舞足蹈剑令,幽默風(fēng)趣。
我聽完拄查,真有醍醐灌頂之感吁津。
我們大多數(shù)時候,都生活在一個平凡的世界里堕扶,喜歡套用約定俗成的觀念碍脏,來理解和認識它。
因為這樣稍算,比較省腦力典尾。
但是科研過程不一樣。它不應(yīng)該是蕭規(guī)曹隨的糊探。
許多約定俗成的假設(shè)和共識钾埂,用隱含的方式根植于我們思維模型的底層。但它們卻未必正確科平。
這就需要我們不斷反復(fù)追問褥紫,并且調(diào)用第一性原理來重新梳理假設(shè)的關(guān)系鏈條。
大膽假設(shè)瞪慧,小心求證髓考,才是科研的正途。
希望你也能早日做出這樣既有用又有趣的研究弃酌。
延伸閱讀
你可能也會對以下話題感興趣氨菇。點擊鏈接就可以查看。
喜歡別忘了點贊。
還可以微信關(guān)注我的公眾號“玉樹芝蘭”(nkwangshuyi)。別忘了加星標聂沙,以免錯過新推送提示秆麸。
題圖:Photo by José Alejandro Cuffia on Unsplash