評(píng)論分享 | 科學(xué)中的 ChatGPT:如何與數(shù)據(jù)對(duì)話

Basic Information

  • 英文標(biāo)題: ChatGPT for science: how to talk to your data
  • 中文標(biāo)題: 科學(xué)中的 ChatGPT:如何與數(shù)據(jù)對(duì)話
  • 發(fā)表日期: 22 July 2024
  • 文章類(lèi)型: TECHNOLOGY FEATURE
  • 所屬期刊: Nature
  • 文章鏈接: https://www.nature.com/articles/d41586-024-02386-6

科幻中的計(jì)算機(jī)分析與現(xiàn)實(shí)中的AI工具

在科幻作品中,角色無(wú)需編程技能就能從數(shù)據(jù)中提取有意義的信息遵班,他們只需簡(jiǎn)單地提出問(wèn)題:“計(jì)算機(jī)屠升,分析∠林#” 現(xiàn)在腹暖,越來(lái)越多的公司正在嘗試將這種科幻變?yōu)楝F(xiàn)實(shí)——某種程度上是通過(guò)使用大型語(yǔ)言模型(LLMs)。這些強(qiáng)大但專(zhuān)注的人工智能(AI)工具讓研究人員能夠用自然語(yǔ)言向他們的數(shù)據(jù)提出問(wèn)題翰萨,例如“對(duì)照組和實(shí)驗(yàn)組之間有什么區(qū)別脏答?” 但與科幻中的AI不同,這些工具給出的答案仍需謹(jǐn)慎對(duì)待亩鬼,并在使用前進(jìn)行雙重檢查殖告。就像是數(shù)據(jù)分析版的 ChatGPT。

這些工具出現(xiàn)的原因很簡(jiǎn)單:篩選和優(yōu)先處理生物數(shù)據(jù)是繁瑣且具有挑戰(zhàn)性的雳锋,并且需要專(zhuān)門(mén)的技能黄绩。“生物數(shù)據(jù)變得越來(lái)越復(fù)雜魄缚,”加利福尼亞州舊金山 Enable Medicine 公司的一位科學(xué)經(jīng)理 Alexandro Trevino 說(shuō)道。該公司正在為其藥物開(kāi)發(fā)客戶構(gòu)建空間基因表達(dá)和蛋白質(zhì)定位數(shù)據(jù)的圖譜∫逼ィ“數(shù)據(jù)規(guī)模大幅增加习劫,這些數(shù)據(jù)集的復(fù)雜性也在增加,因此我們?cè)谕诰蚪腊⒗斫夂徒忉屵@些數(shù)據(jù)方面的挑戰(zhàn)也相應(yīng)增加诽里】挥荆”

理論上虫埂,專(zhuān)用的LLM允許研究人員在不完全了解數(shù)據(jù)復(fù)雜性或不具備編程技能的情況下肆汹,從數(shù)據(jù)中提取洞見(jiàn)纹蝴。而且其中一些工具已經(jīng)可以回答相當(dāng)復(fù)雜的問(wèn)題窖铡。但這些工具仍在不斷改進(jìn)中帘瞭。像其他基于LLM的工具一樣统捶,它們可能會(huì)出現(xiàn)“幻覺(jué)”或編造答案七蜘。因此霉囚,開(kāi)發(fā)人員建議這些工具應(yīng)在一定程度上由人類(lèi)監(jiān)督下使用捕仔。

為什么與數(shù)據(jù)“對(duì)話”?

如今盈罐,在線數(shù)據(jù)和查詢工具并不短缺榜跌。例如,CZ CELLxGENE 數(shù)據(jù)門(mén)戶提供了預(yù)構(gòu)建的工具盅粪,允許研究人員查詢單細(xì)胞基因表達(dá)數(shù)據(jù)集钓葫。類(lèi)似 ChatPDF 的工具讓研究人員能夠上傳PDF文件(如科學(xué)論文)并向其提問(wèn)。然而票顾,更復(fù)雜的分析需要了解底層數(shù)據(jù)的結(jié)構(gòu)以及它們的變量名稱和類(lèi)型础浮。

為了簡(jiǎn)化這種交互,位于舊金山的生物技術(shù)公司 Genentech 正從零開(kāi)始構(gòu)建基于 LLM 的工具库物。由公司位于紐約市的前沿研究總監(jiān) Stephen Ra 領(lǐng)導(dǎo)霸旗,這款 LLM 旨在解決“貫穿藥物發(fā)現(xiàn)和開(kāi)發(fā)管線的廣泛?jiǎn)栴},”他說(shuō)戚揭,“從靶點(diǎn)識(shí)別诱告、發(fā)現(xiàn)、安全性評(píng)估和優(yōu)先級(jí)排序民晒,到如何做出更好的決策精居,或者降低某些臨床試驗(yàn)階段的風(fēng)險(xiǎn),或者更好地理解患者的軌跡和不良反應(yīng)潜必⊙プ耍”

Ra 表示,最終的 LLM 可以簡(jiǎn)化目前手動(dòng)且繁瑣的任務(wù)磁滚。例如佛吓,科學(xué)家可能暫時(shí)擱置他們的數(shù)據(jù)集宵晚,但之后希望對(duì)這些數(shù)據(jù)進(jìn)行總結(jié)。他們可以提問(wèn)维雇,“給我這個(gè)特定時(shí)間淤刃、特定品系的特定檢測(cè)結(jié)果”,Ra 說(shuō)吱型。該系統(tǒng)應(yīng)能夠充分理解查詢內(nèi)容和數(shù)據(jù)逸贾,從而滿足請(qǐng)求。目前津滞,Genentech 及其母公司羅氏的“多個(gè)團(tuán)隊(duì)”正在對(duì)該系統(tǒng)進(jìn)行測(cè)試铝侵。

同樣地,Enable Medicine 的 LLM 旨在幫助公司代表其客戶——主要是腫瘤學(xué)和自身免疫性疾病領(lǐng)域的制藥公司——查詢其生物圖譜触徐。公司首席執(zhí)行官 Kamni Vijay 表示咪鲜,研究人員可以提出諸如“患者是否對(duì)治療有反應(yīng),什么因素區(qū)分了有反應(yīng)和無(wú)反應(yīng)的患者锌介?”或者“哪些生物標(biāo)志物會(huì)影響或預(yù)測(cè)疾病進(jìn)展嗜诀?”之類(lèi)的問(wèn)題。

Vijay 還提到孔祸,Enable 正在基于幾個(gè)現(xiàn)有的 LLM 進(jìn)行構(gòu)建隆敢,并使用數(shù)萬(wàn)份樣本中的數(shù)百萬(wàn)GB的分子和細(xì)胞數(shù)據(jù)進(jìn)行訓(xùn)練。然而崔慧,他們?nèi)栽谶M(jìn)行實(shí)驗(yàn)拂蝎。“我們的一部分研究是在探索這種界面是否在科學(xué)上具有有效性和價(jià)值惶室∥伦裕”

這些工具是什么樣子的?

在這個(gè)領(lǐng)域的一些工具模擬了 ChatGPT 的流行問(wèn)答格式皇钞。例如悼泌,由馬薩諸塞州波士頓的布萊根婦女醫(yī)院的計(jì)算病理學(xué)家 Faisal Mahmood 構(gòu)建的 PathChat 允許用戶輸入病理圖像(如腫瘤活檢結(jié)果)以及描述性數(shù)據(jù)(例如“該腫瘤對(duì)標(biāo)記 A、B 和 C 呈陽(yáng)性染色”)夹界。用戶隨后可以對(duì)這些數(shù)據(jù)提出自然語(yǔ)言問(wèn)題馆里,例如“你對(duì)該腫瘤的原發(fā)性來(lái)源有什么看法?” 這些交流以類(lèi)似于 WhatsApp 對(duì)話的文字氣泡形式呈現(xiàn)可柿。

然而鸠踪,Enable 的系統(tǒng)與這種問(wèn)答格式有所不同。Vijay 表示复斥,它是一個(gè)更加復(fù)雜的自動(dòng)化系統(tǒng)营密,支持自然語(yǔ)言查詢。

還有一些工具輸出代碼而非文字目锭。Mergen 是一個(gè)基于 LLM 的 R 編程語(yǔ)言庫(kù)评汰,由柏林 Max Delbrück 中心的生物信息學(xué)家 Altuna Akalin 構(gòu)建纷捞。Akalin 創(chuàng)建這個(gè)庫(kù)(或稱“包”)是因?yàn)樗膱F(tuán)隊(duì)收到的基因組數(shù)據(jù)分析請(qǐng)求超出了他們的處理能力。Mergen 主要面向基因組學(xué)研究人員被去,而非計(jì)算科學(xué)家兰绣。它分析預(yù)處理后的基因組數(shù)據(jù)集,以回答諸如“你能給我提供某一組個(gè)體中過(guò)表達(dá)的所有基因嗎编振?”之類(lèi)的問(wèn)題。工具不會(huì)直接給出答案臭埋,而是返回可執(zhí)行的代碼來(lái)進(jìn)行分析踪央。不過(guò),Akalin 警告說(shuō)瓢阴,和所有 LLM 一樣畅蹂,這些代碼在使用前應(yīng)由人進(jìn)行仔細(xì)檢查,因?yàn)榧词勾a可以執(zhí)行荣恐,也可能包含邏輯錯(cuò)誤液斜。

它們是如何構(gòu)建的?

要構(gòu)建一個(gè)能夠讓研究人員與數(shù)據(jù)對(duì)話的 LLM 需要什么叠穆?與所有 AI 系統(tǒng)一樣少漆,答案是大量的訓(xùn)練數(shù)據(jù)。但是硼被,數(shù)據(jù)類(lèi)型的平衡同樣重要示损,并且團(tuán)隊(duì)為實(shí)現(xiàn)這一平衡付出了相當(dāng)大的努力,Ra 說(shuō)道嚷硫〖旆茫“對(duì)我們來(lái)說(shuō),價(jià)值在于能夠創(chuàng)建一個(gè)對(duì) Genentech 內(nèi)的多個(gè)團(tuán)隊(duì)廣泛有用的工具仔掸,并允許這些團(tuán)隊(duì)微調(diào)他們自己的模型脆贵。” Ra 解釋說(shuō)起暮,Genentech 使用了包括組學(xué)和臨床數(shù)據(jù)在內(nèi)的多項(xiàng)項(xiàng)目和領(lǐng)域的內(nèi)部和外部信息組合來(lái)訓(xùn)練其模型卖氨。

Trevino 介紹說(shuō),有兩種主要方法可以將通用型 LLM 轉(zhuǎn)化為一個(gè)能夠與數(shù)據(jù)對(duì)話的系統(tǒng)鞋怀。一種方法是使用領(lǐng)域特定的信息(如病理學(xué)數(shù)據(jù))對(duì)通用型 LLM 進(jìn)行微調(diào)双泪。在這種“非常有效”的方法中,模型本身“具體地學(xué)習(xí)了新的內(nèi)容”密似。另一種方法稱為情境化處理焙矛,不改變底層的通用型 LLM,而是為其提供定制的情境残腌,如醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)村斟,作為查詢的一部分贫导。Trevino 拒絕透露 Enable 使用的是哪種方法。

為了構(gòu)建 PathChat蟆盹,Mahmood 和他的團(tuán)隊(duì)從 Facebook 母公司 Meta 開(kāi)發(fā)的通用型 LLM Llama 2 入手孩灯。他們將 LLM 與他們?yōu)椴±韺W(xué)構(gòu)建的兩個(gè)視覺(jué)語(yǔ)言模型(UNI 和 CONCH)連接起來(lái),每個(gè)模型都在數(shù)百萬(wàn)張病理圖像和說(shuō)明文字上進(jìn)行了訓(xùn)練逾滥,從而形成了一個(gè)多模態(tài) LLM峰档。然后,研究人員利用從案例報(bào)告和教育文章中提取的五十萬(wàn)次病理對(duì)話對(duì)該多模態(tài) LLM 進(jìn)行了精煉寨昙,這些對(duì)話大多來(lái)自布萊根婦女醫(yī)院和麻省總醫(yī)院讥巡,涵蓋了病例的完整發(fā)展過(guò)程,從而得到了 PathChat舔哪,Mahmood 說(shuō)道欢顷。他補(bǔ)充說(shuō),目前布萊根婦女醫(yī)院的一些病理學(xué)家正在使用該系統(tǒng)來(lái)解釋顯微圖像并編寫(xiě)病理形態(tài)描述捉蚤,然后由病理學(xué)家進(jìn)行檢查抬驴。

它們可靠嗎?

確認(rèn)至關(guān)重要:僅僅因?yàn)?LLM 提供了答案缆巧,并不意味著這個(gè)答案是正確的布持。LLM 可能會(huì)捏造答案或遺漏信息,而如何確保模型的回應(yīng)是可驗(yàn)證和可復(fù)制的陕悬,仍然是一個(gè)未解決的問(wèn)題鳖链,Trevino 說(shuō):“如何驗(yàn)證結(jié)果是一個(gè)活躍的研究領(lǐng)域《漳”

Ra 認(rèn)為芙委,領(lǐng)域?qū)<业姆答伿瞧渲幸粋€(gè)關(guān)鍵方面。有多種方式可以整合這些檢查——例如狂秦,用戶可以提供簡(jiǎn)單的“贊”或“踩”反饋灌侣,或者給出更詳細(xì)的回應(yīng),甚至可以在人與 LLM 之間進(jìn)行迭代交互裂问。無(wú)論采用哪種方式侧啼,希望隨著時(shí)間的推移,模型需要的輸入會(huì)越來(lái)越少堪簿,因?yàn)殡S著數(shù)據(jù)集的擴(kuò)大痊乾,這種反饋機(jī)制的可擴(kuò)展性會(huì)受到限制。

Trevino 和 Ra 都表示椭更,在研究特定的 LLM 中哪审,理解和信任底層模型的運(yùn)作尤其重要。Trevino 認(rèn)為虑瀑,一個(gè)挑戰(zhàn)是“稍微打開(kāi)這個(gè)黑箱”湿滓,以便更好地理解它為什么會(huì)以某種方式回答問(wèn)題滴须。這有助于減少“幻覺(jué)”的發(fā)生。

事實(shí)上叽奥,Genentech 從頭構(gòu)建其 LLM 的動(dòng)機(jī)之一扔水,Ra 說(shuō),是因?yàn)樗麄兿M揽梢孕湃尾⒗斫廨斎肽P偷拿恳粭l數(shù)據(jù)朝氓∧校“在我們經(jīng)常處理特權(quán)信息或非常敏感的信息(如患者數(shù)據(jù))的環(huán)境中,這一點(diǎn)尤為重要赵哲∴谀”

Ra 解釋道,現(xiàn)成的“黑箱”LLM 并不總是清楚它們是如何訓(xùn)練的誓竿。“我認(rèn)為這是對(duì)一些商業(yè) LLM 解決方案的一個(gè)普遍批評(píng)谈截,往往數(shù)據(jù)透明度不夠筷屡。”

在 LLM 領(lǐng)域的另一個(gè)持續(xù)挑戰(zhàn)是底層數(shù)據(jù)的偏見(jiàn)簸喂。在訓(xùn)練數(shù)據(jù)中代表性不足的群體會(huì)在生成的模型中被錯(cuò)誤地代表毙死,目前的基因組數(shù)據(jù)嚴(yán)重代表了歐洲血統(tǒng)的人群。Trevino 和 Vijay 認(rèn)為喻鳄,解決方案是改善底層數(shù)據(jù)的多樣性扼倘。但他們也表示,底層數(shù)據(jù)何時(shí)足夠多樣化并沒(méi)有真正的終點(diǎn)除呵。

然而再菊,如果這些挑戰(zhàn)能夠克服,“這些類(lèi)型的模型將帶來(lái)非常實(shí)際的好處颜曾,”Trevino 說(shuō)纠拔。重要的是“確保這種好處得以實(shí)現(xiàn)并最大限度地普及化”,并且這些收益值得為之付出的努力泛豪。

本文由mdnice多平臺(tái)發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末稠诲,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子诡曙,更是在濱河造成了極大的恐慌臀叙,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件价卤,死亡現(xiàn)場(chǎng)離奇詭異劝萤,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)慎璧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)稳其,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)驶赏,“玉大人,你說(shuō)我怎么就攤上這事既鞠∶喊” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵嘱蛋,是天一觀的道長(zhǎng)蚯姆。 經(jīng)常有香客問(wèn)我,道長(zhǎng)洒敏,這世上最難降的妖魔是什么龄恋? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮凶伙,結(jié)果婚禮上郭毕,老公的妹妹穿的比我還像新娘。我一直安慰自己函荣,他們只是感情好显押,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著傻挂,像睡著了一般乘碑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上金拒,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天兽肤,我揣著相機(jī)與錄音,去河邊找鬼绪抛。 笑死资铡,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的幢码。 我是一名探鬼主播害驹,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蛤育!你這毒婦竟也來(lái)了宛官?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤瓦糕,失蹤者是張志新(化名)和其女友劉穎底洗,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體咕娄,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡亥揖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片费变。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡摧扇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出挚歧,到底是詐尸還是另有隱情扛稽,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布滑负,位于F島的核電站在张,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏矮慕。R本人自食惡果不足惜帮匾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望痴鳄。 院中可真熱鬧瘟斜,春花似錦、人聲如沸痪寻。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)槽华。三九已至,卻和暖如春趟妥,著一層夾襖步出監(jiān)牢的瞬間猫态,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工披摄, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留亲雪,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓疚膊,卻偏偏與公主長(zhǎng)得像义辕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子寓盗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容