2022年11月30日堪簿,美國人工智能研究實驗室OpenAI推出了由人工智能技術(AI)驅動的自然語言處理工具ChatGPT。在推出的短短5天內皮壁,注冊用戶數(shù)量超過了100萬椭更,而到2023年1月底,ChatGPT的月活用戶突破了1億蛾魄,締造了史上增長最快消費者應用的神話虑瀑。
ChatGPT的一夜爆紅將AI這個本就火熱的詞匯烘托到了一個新的高度。而在此之前滴须,人們對AI討論的高潮還要追溯到2016年舌狗,AlphaGo戰(zhàn)勝人類圍棋世界冠軍的時刻。ChatGPT的出現(xiàn)加速了對AI認知曲線在第一階段的攀升扔水,一時間AI仿佛很快將變得無所不能痛侍。更有甚者認為AI很快會替代大部分人的工作,造成大量失業(yè)魔市;AI很快會產生自我意識主届,威脅人類安全(不過畢竟州長的《終結者》確實是我們難忘的童年回憶)。
在科研領域待德,AI的影響同樣迅速擴張君丁。2023年9月,《Nature》封面刊登了《AI如何改變科學》的相關文章将宪,深入討論了AI如何幫助重塑科學事業(yè)绘闷。根據《Nature》的分析表明,Scopus 數(shù)據庫中在標題或摘要中提及人工智能或人工智能相關關鍵詞的論文比例目前為8%较坛,而十年前為2%印蔗。
AI確實正在改變科研領域,這包括生物學燎潮、物理學喻鳄、數(shù)學和社會科學等各個學科扼倘。從在數(shù)據中尋找模式的機器學習技術确封,到可以從大量文本和代碼中生成真實合成輸出的最新通用算法,人工智能工具正在加快研究步伐再菊,為科學探索提供新的方向[1]爪喘。2023年末,《Nature》也眾望所歸的把年度十大Highlight中的一個席位給了ChatGPT纠拔。新英格蘭醫(yī)學雜志集團(NEJM Group)更是迅速出手秉剑,創(chuàng)辦了全新期刊《NEJM AI》。
除了頂級期刊的出手稠诲,科研圈子里也傳播著各種利用AI發(fā)表論文的佳話侦鹏。其中最著名的就是美國田納西大學健康科學中心的一名放射科醫(yī)生Som Biswas诡曙,自從ChatGPT給Biswas打開了一扇新世界的大門,4個月時間里略水,Biswas 已經用ChatGPT編寫了至少16篇論文价卤,其中5篇發(fā)表在4種不同期刊上[2]。然而渊涝,近幾天甚囂塵上的AI翻車事件慎璧,也給我們帶來更多的思考。2月13日跨释,西安的3名脊柱外科醫(yī)生在《Frontiers in Cell Development and Biology》發(fā)表的綜述文章《Cellular functions of spermatogonial stem cells in relation to JAK/STAT signaling pathway》[3]胸私,刊發(fā)不到3天,由于插圖過于離譜引起熱議鳖谈,并引來超過30萬的閱讀岁疼。爭議之下,期刊迅速撤稿缆娃,并公開致歉五续。
身處于科研服務行業(yè)將近十年的時間,也想從我們日常使用AI的變化和體驗中龄恋,以不同的場景舉例疙驾,聊聊現(xiàn)階段的AI到底給科研和論文發(fā)表帶來了什么?
文獻資料查詢
猶記得當年讀博期間郭毕,查閱文獻的主力是學校圖書館購買的Web of Science數(shù)據庫它碎、Pubmed和Google Scholar。在寫文獻綜述時显押,如果想要找一個文獻被誰引用了扳肛,最常用的方法是翻Pubmed里面的“Cited by”,然后在長長的列表中仔細甄別相關的文章乘碑。然而挖息,隨著AI的發(fā)展,改變了費時費力的操作兽肤,雖然Pubmed和Google Scholar仍是最常使用的文獻查詢資源(自從畢業(yè)后再也不能白嫖Web of Science了)套腹。但基于AI的Paper Linker也成為了日常頻繁被使用的“神器”。AI推薦文獻和關鍵詞高度關聯(lián)资铡,經典文獻根據關鍵詞篩選出來該領域必讀文獻电禀,核心文獻則是AI推薦文獻與經典文獻重疊共引的文獻,可視化的圈圈更大笤休。這樣在AI的幫助下尖飞,我們一眼就可以看出檢索領域中那些重要的文章。而這僅僅靠“Cited by”的支持是難以實現(xiàn),且不精準的政基。
文獻解讀
ChatGPT本就是自然語言處理工具贞铣,在此之上自然開發(fā)出了文獻解讀的工具,比如ChatPDF[4]沮明。在這個號稱“Chat with any PDF”的網站中咕娄,上傳你想要了解的SCI文章的PDF文件,然后你就可以問它任何關于這篇文章的問題珊擂,并得到回答圣勒。甚至,在文章中涉及的特定概念摧扇,即使文章沒有展開定義圣贸,當你詢問后,它也可以在PDF外的網絡中查找到并作答扛稽。AI工具ChatPDF可以實現(xiàn)快速了解文章主要內容和主要結論的目的吁峻,這極大提高了我們文章閱讀和理解的效率。然而在张,基于我自己使用的經驗用含,我用的是“了解文章”這個詞,如果我們想要準確的扣細節(jié)帮匾,準確度就未必達到我們的預期了啄骇。比如,我想讓ChatPDF幫我總結某篇單細胞文章中細胞注釋用的所有特征基因瘟斜,卻很難得到滿意的結果(不過近期我們還是會專門講講ChatPDF的使用缸夹,別忘了關注我們呀~)。
生信代碼編寫
曾經在ChatGPT剛剛推出的時候螺句,我們一度擔心ChatGPT自動生成的分析代碼搶走了我們生信分析同事的飯碗虽惭。然而,實際情況是他們都還安心的在公司加班敲著鍵盤蛇尚,既然大家都還在芽唇,那AI對生信代碼編寫的影響他們最有發(fā)言權,所以這段內容都是我和他們中午一起吃飯時問出來的取劫。目前匆笤,我們生信同事對ChatGPT的使用頻率是每天、多次勇凭。主要使用場景包括編寫文本處理的腳本疚膊、分析報錯排查bug义辕、問問某個分析點還有什么替代的分析軟件虾标。其中,前兩個場景涉及到具體代碼,我們來具體說說AI能起到什么作用璧函。
首先是編寫文本處理的腳本傀蚌,這里大家注意生信同事用AI編寫的腳本主要是“文本處理”,通常返回的是幾句Shell蘸吓,或者簡單的Python腳本善炫。這些場景的使用中,通過對結果的簡單加工库继,AI已經可以解決80%-90%的問題箩艺。但我們的分析點開發(fā)和主流程串寫,始終是生信同事辛苦人工執(zhí)行的宪萄,這樣才能達到項目的要求和更好的效果艺谆。在流程開發(fā)的過程中,或者項目分析過程中拜英,代碼報錯是普遍存在的静汤。我自己上學時寫代碼,有些報錯真就幾天也找不到原因(通常是R版本問題居凶,懂的都懂虫给,哭~)。分析報錯排查bug侠碧,也是生信同事常遇到的場景抹估,這一點上,AI通撑担可以解決30%-40%的問題棋蚌。
文章撰寫和潤色
這一點上,我覺得還是挺有發(fā)言權的挨队,原因有二:差點被AI坑了谷暮、真金白銀花過錢。先說說差點被坑的事情盛垦,雖然我從來沒考慮過用AI從頭撰寫一篇論文湿弦。但是背負著微信推文撰寫的我,曾經試圖希望ChatGPT幫我總結一下“單細胞測序分析在代謝重編程中的應用腾夯,并列舉5篇SCI文章為例”(這里說明一下颊埃,用的是免費的ChatGPT3.5)。ChatGPT一本正經的回答了我的提問蝶俱,不僅先進行了一番歸納總結性的陳述班利,還清清楚楚羅列了5篇文章的標題(甚至還有DOI,他真的我哭死~)榨呆。然而罗标,本著嚴謹?shù)膽B(tài)度,我用文章的題目搜了一下Pubmed,搜不到闯割!再搜了一下Google Scholar彻消,搜不到!再搜一下DOI宙拉,搜到了一篇題目完全不同的文章(他真的我哭死~)宾尚!
再說說,真金白銀為AI花過錢谢澈。一直看到各種網站推出AI論文寫作煌贴,迫于好奇心的壓力,幾個月前忍痛花了100多大洋看看這葫蘆里到底賣的是什么藥锥忿。說起來用法也簡單崔步,只要輸入一個論文題目。然后就自動生成了多個大綱缎谷,接著選擇一個自己心儀的大綱井濒,就可以開始生成論文,從交錢到論文生成列林,不到20分鐘瑞你。客觀的評價一下結果希痴,完全不能用(僅代表我使用的那個平臺結果者甲,樣本量過小,不能代表整體水平):首先是字數(shù)達不到論文要求砌创,客服解釋是大綱生成的層級和標題數(shù)量不夠虏缸。其次是撰寫的內容更偏主觀描述,準確性存疑嫩实,且客觀數(shù)字很少刽辙。最后是引用文獻年份比較老,且僅個位數(shù)幾篇甲献。我們都知道ChatGPT3.5的訓練數(shù)據截止日期是2022年1月宰缤,ChatGPT4.0是2023年4月。在生物學研究飛速發(fā)展的今天晃洒,ChatGPT訓練數(shù)據的更新速度確實存在一些延遲慨灭。但我們也不可否認,如DeepL這樣基于AI的翻譯工具[5]球及,可以很好的輔助我們完成文章的語法修改和潤色氧骤。
我相信我一定不是AI使用最熟練,最精準的人吃引。但我相信這些日吵锪辏科研工作中的例子刽锤,可以反映AI對廣大科研工作者的影響。從上述內容中惶翻,簡單總結現(xiàn)階段的AI到底給科研和論文發(fā)表帶來了什么:
1) 對于大數(shù)據歸納整理的效率飛躍式的提升姑蓝,在這個過程中可以比人工處理更加綜合鹅心、全面吕粗;
2) 對于論文內容的快速閱讀、主要內容提取旭愧、主要結論的理解颅筋,提供高效和交互式的協(xié)助;
3) 對于科研中遇到的問題進行詢問输枯,可以快速得到較為全面和完整的答案议泵,無需自行在網絡中到處搜索查詢;
4) 對于已有文章手稿的語言修改和潤色桃熄,特別是對英文語法的糾錯先口,做到錦上添花;
5) 對于科研思路的啟發(fā)瞳收,AI通過豐富的數(shù)據訓練碉京,更有可能提示我們未曾想到的研究方向和思路。
相信隨著AI不斷的發(fā)展完善螟深,輔以更加海量的訓練數(shù)據谐宙,勢必在科研和論文發(fā)表中發(fā)揮越來越多的重要作用。但我們也應該認識到界弧,現(xiàn)階段AI生成的內容和數(shù)據等的準確性凡蜻、嚴謹性往往差強人意。在科研領域垢箕,目前我們還無法放心的完全依賴AI產出的結果划栓。對于AI生成的內容需要足夠的經驗來辨別、監(jiān)督条获、把控茅姜,否則很可能帶來類似近期撤稿文章這樣貽笑大方的結果。
沃林科研院月匣,我們會開辟AI科研應用專欄钻洒,讓您在AI科研發(fā)展的過程中不掉隊!
參考資料
[1] https://www.nature.com/immersive/d41586-023-03017-2/index.html
[2] https://healthimaging.com/topics/artificial-intelligence/chatgpt-helps-radiologist-churn-out-16-papers-4-months
[3] https://www.frontiersin.org/news/2024/02/16/frontiers-statement-concerning-the-article-cellular-functions-of-spermatogonial-stem-cells
[4] https://www.chatpdf.com
[5] https://www.deepl.com/translator