Application of Artificial Intelligence to Gastroenterology and Hepatology
Catherine Le Berre 等
摘要:自2010年以來蝉衣,人工智能(A I)在醫(yī)學上的應用取得了實質性進展。人工智能在胃腸病學中的應用包括內(nèi)鏡下病變分析笔诵,癌癥檢測议双,分析無線膠囊內(nèi)鏡檢查中的炎性病變或消化道出血。人工智能還被用于評估肝纖維化,區(qū)分胰腺癌患者與胰腺炎患者。人工智能也可以根據(jù)多組學數(shù)據(jù)確定病人的預后或預測他們對治療的反應母市。本文綜述了人工智能幫助醫(yī)生做出診斷或確定預后的方法蒋失,并討論其局限性铣卡,了解在衛(wèi)生當局批準人工智能技術之前需要進一步的隨機對照研究州邢。
關鍵詞:深度學習呀枢;機器學習摘刑;神經(jīng)網(wǎng)絡党晋;消化系統(tǒng)
一、引言
人工智能沒有一個單一的定義徐块,人工智能的概念包含了執(zhí)行與我們?nèi)祟愔悄芟嚓P聯(lián)的功能的程序未玻,比如學習和探索解決問題[1,2]。人工智能胡控、機器學習和深度學習是概念上相互交叉的學科(見圖1)扳剿。機器學習是一個包括了計算機科學和統(tǒng)計學的廣闊學科,機器學習程序重復迭代以應對提高特定任務的性能铜犬,產(chǎn)生了分析數(shù)據(jù)和學習描述和預測模型的算法舞终。供訓練的數(shù)據(jù)大多以表格形式組織轻庆,其中對象或個人為行,而變量敛劝,無論是數(shù)值型還是分類型都是列余爆。機器學習大致可分為監(jiān)督方法和無監(jiān)督方法,無監(jiān)督學習的目的是在不掌握群體的數(shù)量或特性的先驗知識的前提下夸盟,根據(jù)數(shù)據(jù)的共性識別群體蛾方。有監(jiān)督學習在訓練數(shù)據(jù)包含每一個對象的輸入—輸出對的表征的使用。輸入包含個體的特征描述上陕,輸出包含要預測的感興趣的結果桩砰,要么是分類任務的類,要么是回歸任務的數(shù)值释簿。有監(jiān)督的機器學習算法學習這種輸入和輸出對的映射關系亚隅,在新的輸出出現(xiàn)時,自動預測它對應的輸出[3]庶溶。
人工神經(jīng)網(wǎng)絡(ANN)是受大腦神經(jīng)解剖學啟發(fā)的監(jiān)督ML模型煮纵。每個神經(jīng)元都是一個計算單元,所有神經(jīng)元相互連接偏螺,建立整個網(wǎng)絡行疏。信號從第一層(輸入)傳到至最后一層(輸出),可能經(jīng)過了多個隱含層(見圖2)套像。訓練神經(jīng)網(wǎng)絡的過程包括將數(shù)據(jù)劃分為一個訓練集酿联,該訓練集有助于定義網(wǎng)絡的體系結構,并找出節(jié)點之間的各種權重夺巩,然后是一個測試集贞让,用于評估神經(jīng)網(wǎng)絡預測所需輸出的能力。在訓練過程中柳譬,神經(jīng)網(wǎng)絡內(nèi)部神經(jīng)元之間的連接權重被不斷優(yōu)化震桶。對更好性能的不斷追求導致了復雜的深度神經(jīng)網(wǎng)絡的誕生[4]。
深度神經(jīng)網(wǎng)絡模型的特點是數(shù)個連續(xù)濾波器的應用,這些濾波器自動檢測輸入數(shù)據(jù)的相關特征忙厌,因此深度學習被認為能夠有效的學習數(shù)據(jù)的特征表示凫岖。基于深度學習的方法包括了很多種系統(tǒng)結構[5]逢净。然而哥放,所良好性能依賴大量的標記訓練數(shù)據(jù)歼指。研究人員通過將DL與強化學習原理相結合來解決這個問題。
深度學習的一大局限性是過度擬合和缺乏可解釋性甥雕。由深度學習獲得的模型在擬合數(shù)據(jù)能力上往往比任何其他模型都要好得多踩身,但它們本質上是數(shù)據(jù)驅動的。如果訓練數(shù)據(jù)不具備足夠的多樣性社露,或者含有不明確的數(shù)據(jù)偏見挟阻,那么DL訓練出來的模型將無法對現(xiàn)實中的對象進行泛化。另外峭弟,深度神經(jīng)網(wǎng)絡也存在黑箱模型的可解釋性低的問題附鸽。最近的研究旨在提高DNN模型的可解釋性,因為它是它們在許多領域瞒瘸,特別是在生物醫(yī)學應用中被接受的先決條件[7,8]坷备。目前已經(jīng)有一些關于胃腸病學人工智能的綜述研究,但是它們主要聚焦于人工智能輔助內(nèi)窺鏡上[9-11]情臭。在本文中省撑,我們對胃腸病學和肝病學的人工智能對診斷和預后估計的的重要文獻進行了綜述(見附表1和附圖1和2)。
大多數(shù)研究使用1個數(shù)據(jù)集訓練機器學習過程谎柄,另一個獨立數(shù)據(jù)集測試其性能丁侄。一些研究使用常見的驗證方法,例如留一法交叉驗證[8]朝巫。為增加訓練數(shù)據(jù)鸿摇,一些研究采用了隨即裁剪、調整大小劈猿、平移拙吉、沿任一軸翻轉的數(shù)據(jù)增強方法。數(shù)據(jù)集包括了陰性和陽性圖像的結果揪荣。
二筷黔、惡性病灶及癌前病變分析
目前已經(jīng)有53項研究使用了AI來檢測惡性和癌前腸道病變(表1)。從方法學上看仗颈,其中大部分(48項)集中在內(nèi)鏡上佛舱,3項研究使用了提取自電子病歷的臨床和生物學數(shù)據(jù)(主要包括人口統(tǒng)計數(shù)據(jù)、心血管疾病挨决、用藥情況请祖、消化癥狀和血液計數(shù)情況),1項研究基于血清腫瘤標志物脖祈,1項使用腸道微生物群數(shù)據(jù)肆捕。從部位上看,其中盖高,27項研究致力于提高結直腸息肉或癌癥的診斷準確性[12-38].19項研究聚焦于診斷上消化道癌前或惡性病變[39-57]慎陵。只有4項研究局限于小腸研究[58-61]眼虱。3項研究關注了整個消化道[62-64]。從驗證方法上看席纽,其中捏悬,24項研究采用特殊的驗證方法,主要是K折交叉驗證胆筒。對于以內(nèi)鏡為重點的研究邮破,訓練和測試數(shù)據(jù)集的大小在不同的研究中差異很大。各項研究的性能表現(xiàn)也是差異巨大的(個人認為主要取決于數(shù)據(jù)集)仆救,但大多數(shù)算法的精度達到80%以上抒和。
兩項已發(fā)表的隨機對照實驗比較了智能與非智能內(nèi)鏡的性能。第一項研究測試了一種實時深度學習系統(tǒng)(WISENSE)的性能彤蔽,監(jiān)測食管胃十二指腸鏡檢查(EGD)中的盲點摧莽。一共324名患者被隨機分配到有或者沒有WISENSE系統(tǒng)的EGD中。在WISENSE組中顿痪,準確度達到了90.4%镊辕,其盲點率明顯比對照組低(5.9% vs 22.5%)[65]。第二項研究探討了基于DL的自動息肉檢測系統(tǒng)在結腸鏡檢查中的作用蚁袭,一共1058名患者被隨機分配到有或者沒有智能輔助系統(tǒng)的診斷性結腸鏡檢查中征懈。人工智能系統(tǒng)將腺瘤檢出率從20.3%顯著提高到29.1%,平均每個病人檢出的腺瘤數(shù)目從0.31增加到0.53[66]揩悄。這些結果表明卖哎,人工智能系統(tǒng)可用于提高內(nèi)鏡對胃腸道癌前病變的診斷價值。
除了提高診斷準確性外删性,人工智能還可以幫助醫(yī)生確定消化道腫瘤患者的預后亏娜。一個基于1219例結直腸癌患者的數(shù)據(jù)集建立的神經(jīng)網(wǎng)絡與傳統(tǒng)的COX回歸模型相比,提供了更精確的生存時間和影響因素的確定[67]蹬挺,并可用于確定患者遠處轉移的風險[68]维贺。采用人工神經(jīng)網(wǎng)絡模型對452例胃癌患者進行評估,并以大約90%的準確率確定生存時間[69]巴帮。在一項對117例II A期結腸癌根治術后患者的研究中溯泣,一種基于神經(jīng)網(wǎng)絡的評分系統(tǒng),根據(jù)腫瘤的分子特征榕茧,將腫瘤術后患者分為高发乔、中、低危三組雪猪,三組患者十年總體生存率和無病生存率差異顯著[70]。深度學習預測局部晚期直腸癌患者對新輔助化療有完全反應的準確率達80%起愈,這項技術可能被用來識別最有可能從保守治療或根治性切除中受益的患者[71]只恨。另外译仗,一個基于DL的模型可以根據(jù)臨床、病理數(shù)據(jù)及治療方案官觅,預測1190例胃癌患者5年的生存期纵菌。該系統(tǒng)的AUC值為0.92,并確定了腫瘤的分子特征與最佳輔助治療之間的關系[72]休涤。
三咱圆、炎癥和其他非惡性病變
AI已經(jīng)被用于識別炎癥性腸病(IBDs)(N=6)[73-78]功氨,潰瘍(N=6)[79-84]序苏,脂瀉病(N=5)[85-89]捷凄,淋巴管擴張(N=1)[90]忱详,和鉤蟲病(N=1)[91]跺涤,兩項研究評估了炎性病變患者的內(nèi)鏡檢查結果[92,93]。兩項研究使用電子病歷來確定患者患腹腔疾病的風險,1項研究使用遺傳因素來確定患者患IBD的風險瑟慈。三分之二(21項中的14項)的研究使用K折交叉驗證将谊,以避免數(shù)據(jù)的過度擬合,這21項中有12項研究的患者的患者準確率約為90%院刁。
許多研究已經(jīng)驗證了AI預測IBD患者治療反應的能力糯钙。Waljee等人利用年齡和實驗室數(shù)據(jù)研發(fā)了一種機器學習方法,這種方法的成本較低黎比,且比6-硫鳥嘌呤核苷酸(6-TGN)代謝物測定更準確地預測患者對噻嘌呤的臨床反應(AUC 0.86 vs 0.60)[94]超营。然后,他們根據(jù)生物標志物阅虫、影像學數(shù)據(jù)和內(nèi)鏡檢查結果演闭,改進了之前的ML模型,以預測接受硫嘌呤治療的患者的客觀緩解颓帝。該ML模型優(yōu)于6-TGN水平的測量(AUC 0.79 vs 0.49)[95]米碰。一種ML模型分析了韋多利單抗治療潰瘍性結腸炎患者的三期臨床試驗數(shù)據(jù),與第6周AUC為0.71的糞便鈣保護水平相比购城。AI能夠預測哪些患者將在第52周時在無皮質類固醇的前提下實現(xiàn)內(nèi)鏡下緩解吕座,預測性能的AUC值為0.73。因此瘪板,韋多利單抗在前6周的益處不明顯時吴趴,該算法可用于選擇患者繼續(xù)使用韋多利單抗[96]。另外侮攀,還有一種人工智能算法锣枝,它將微生物群的數(shù)據(jù)與臨床數(shù)據(jù)結合起來厢拭,確定了IBD患者的臨床反應,其預測患者抗整合治療的AUC為0.78[97]撇叁。一種神經(jīng)網(wǎng)絡鑒定潰瘍性結腸炎患者在細胞置換治療后供鸠,需要進一步手術的敏感性和特異性分別達到了0.96和0.87[98]。
預測IBD發(fā)病或進展的人工智能系統(tǒng)也正在研發(fā)中陨闹。一種分析克羅恩病患者早期活檢圖像的神經(jīng)網(wǎng)絡在識別疾病進展的準確性達到了83.3%楞捂,預測患者需要手術的準確度達到了86.0%[99]。Waljee等人建立一種ML方法分析電子病歷數(shù)據(jù)趋厉,預測6個月內(nèi)IBD相關的住院和門診病人使用類固醇的AUC值達到了0.87[100]寨闹。人工神經(jīng)網(wǎng)絡預測IBD患者臨床復發(fā)的頻率,具有較高的準確性[101]觅廓。
四鼻忠、胃腸出血
十二項研究已經(jīng)被用于驗證AI在無限膠囊內(nèi)鏡圖像中檢測小腸出血的能力(表3)[55,102-112]杈绸。12項中的8項研究采用特殊的驗證技術帖蔓,主要是K折交叉驗證。在這些研究中瞳脓,9項研究識別小腸出血的準確率超過了90%塑娇。
對于急性上消化道出血或下消化道出血的患者,可通過內(nèi)鏡檢查輕松確定出血原因劫侧,然而埋酬,很大一部分病人有反復出血的情況,這需要重復內(nèi)鏡檢查和治療烧栋。因此写妥,ML模型被開發(fā)以確定有復發(fā)性出血風險的患者和最有可能需要治療的患者,并估計死亡率审姓。這些模型使用臨床和/或生物數(shù)據(jù)珍特,并以大約90%的準確率識別這些患者[113-117]。一種建立在22854名胃潰瘍患者的回顧性分析和1265名用于驗證的患者基礎上的ML模型魔吐,能夠根據(jù)患者的年齡扎筒、血紅蛋白水平、胃潰瘍酬姆、胃腸道疾病嗜桌、惡性腫瘤和感染來確定復發(fā)性潰瘍出血的患者。模型確定1年內(nèi)復發(fā)性潰瘍出血的患者辞色,AUC為0.78骨宠,準確率為84.3%。
五、肝臟和胰膽疾病
22項研究測試了AI在輔助胰腺疾病或肝臟疾病診療中的能力(表4)层亿。其中關于胰腺癌的AI系統(tǒng)有6項壶唤,其中5項研究基于內(nèi)鏡超聲[118-122]、1項基于血清標記物[123]棕所。這些研究識別胰腺癌患者的AUC約為90%。16項關于肝臟的研究中7項研究旨在檢測與病毒性肝炎相關的纖維化[124-130]悯辙,6項開發(fā)了人工智能策略檢測非酒精性脂肪肝[131-136]琳省。2項研究識別食管靜脈曲張[137,138]。1項評估患者不明原因的慢性肝病[139]躲撰。其中针贬,13項研究使用電子病歷和、或生物特征的數(shù)據(jù)建立算法拢蛋,3項研究使用彈性成像數(shù)據(jù)桦他。除2項外,所有研究都使用了特定的驗證技術 谆棱,主要是k-折疊交叉驗證快压。這些模型的精度約為80%。
除了提高診斷準確性外垃瞧,還需要確定病人預后和預測疾病進展的AI方法蔫劣。Pearce等人建立了一個ML模型,根據(jù)APACHE II評分和C反應蛋白水平來預測急性胰腺炎患者的嚴重程度个从。他們模型的AUC值達到了0.82脉幢,敏感度87%,特異度71%[140]嗦锐。Hong等人根據(jù)急性胰腺炎患者的年齡嫌松、紅細胞壓積、血清葡萄糖和鈣水平以及尿素氮水平奕污,創(chuàng)建了一個ANN來評估患者的持續(xù)性器官衰竭萎羔,準確率達96.2%[141]。Jovanovic等人開發(fā)了一種ANN模型菊值,根據(jù)臨床外驱、實驗室和經(jīng)皮超聲檢查結果,識別膽總管結石病患者進行治療性內(nèi)鏡逆行胰膽管造影術的需求腻窒,其AUC為0.88[142]昵宇。
Banerjee等人開發(fā)了一種基于臨床和實驗室數(shù)據(jù)的人工神經(jīng)網(wǎng)絡,以90%的準確性確定肝硬化患者將在1年內(nèi)死亡的可能性儿子,該模型可用于確定肝移植的最佳候選者[143]瓦哎。Konerman等人基于臨床、實驗室和病理組織學數(shù)據(jù)建立了一個機器學習模型,識別慢性丙型病毒感染肝炎患者疾病進展的最高風險蒋譬,以及肝臟相關性結果(肝相關死亡割岛、肝失代償、肝細胞癌犯助、肝移植或Child-Pugh評分增加到7分)癣漆,該模型在1007名患者的驗證集中AUC值達到了0.708。Khosravi等人建立了一種神經(jīng)網(wǎng)絡來預測1168名肝移植患者的生存期剂买。該模型可估計1-5年的生存概率惠爽,AUC為86.4%,而Cox比例風險回歸模型為80.7%[146]瞬哼。研究人員還利用人工神經(jīng)網(wǎng)絡將肝臟捐獻者與接受者配對婚肆,從而提供強有力的決策技術[147]。此外坐慰,ML模型可以幫助預測對治療的反應较性。Takayama等人建立了一種ANN預測慢性丙型病毒感染肝炎患者對聚乙二醇化干擾素a-2b聯(lián)合利巴韋林治療的反應,預測的敏感度達到了82%结胀,特異度達到了88%赞咙。
六、未來的方向
人工智能將成為胃腸病和肝病學家診斷患者把跨、選擇治療手段和預測預后的重要手段人弓。許多方法都是在這些目標下發(fā)展起來的,并展示出不同的性能水準着逐。由于性能指標的差異崔赌,很難比較這些研究的結果。人工智能似乎在內(nèi)鏡下特別有價值耸别,它可以增加對惡性和癌前病變健芭、炎癥病變、小腸出血和胰膽紊亂的檢測秀姐。在肝臟學中慈迈,人工智能技術可以用來確定患者肝纖維化的風險,并允許一些患者避免肝活檢省有。
我們的綜述只涵蓋了PubMed中列出的文章痒留,并且可能錯過了計算機科學和醫(yī)學圖像分析期刊上的一些出版物。盡管如此蠢沿,在過去的20年里伸头,人工智能已經(jīng)成為胃腸病學和肝臟學研究的重要組成部分。盡管本文的綜述的重點是輔助診斷和預后舷蟀,但是其他研究方向的人工智能也正在被探索恤磷,例如基于機器學習的內(nèi)鏡質控評估(盲腸標志面哼,機器學習評估檢測結腸鏡的后續(xù)建議),AI在胃腸道領域的應用也在不斷被擴大扫步。
值得注意的是魔策,目前的AI技術受的高質量數(shù)據(jù)集的缺乏所限制。大多數(shù)用于開發(fā)ML算法的證據(jù)來自臨床前研究河胎,目前在臨床實踐中沒有應用闯袒。此外,DL算法被認為是黑箱模型游岳,黑箱模型很難理解決策過程搁吓,阻止醫(yī)生發(fā)現(xiàn)潛在的混雜因素】岳考慮道德挑戰(zhàn)也很重要,人工智能不知道病人的偏好或法律責任擂橘。如果發(fā)生內(nèi)鏡誤診晌区,誰有責任-內(nèi)鏡醫(yī)生、程序員或制造商通贞?此外朗若,在確定與病毒性肝炎有關的肝臟纖維化風險時,種族歧視等固有偏置容易被納入人工智能算法昌罩,特別是在肝臟學領域哭懈。在開發(fā)人工智能模型時,重要的是要考慮這些因素茎用,并在一系列人群中驗證模型遣总。醫(yī)學總是有內(nèi)在的不確定性,因此完美的預測是不可能的轨功,一些與人工智能相關的研究空白在胃腸學和肝臟學領域仍有待研究(表5)旭斥。
在胃腸病學和肝病學方面,人工智能的發(fā)展是沒有回頭路可走的古涧,未來的影響是巨大的垂券。使用人工智能可以增加在發(fā)展中地區(qū)的人們獲得護理的機會,特別是在評估患者患病毒性肝炎或腸道寄生蟲病的風險方面羡滑。智能手機可以使用人工智能技術遠程監(jiān)測患者的健康菇爪,IBD患者居家測量糞便鈣保護素的方法已經(jīng)被建立[149]。人工智能還可以通過從大型患者數(shù)據(jù)集中集成分子柒昏、遺傳和臨床數(shù)據(jù)來識別新的治療靶點凳宙。然而,人工智能不會完全取代醫(yī)生昙楚,人工智能仍將輔助醫(yī)生工作近速。雖然機器可以做出準確的預測诈嘿,但最終,醫(yī)護人員必須根據(jù)病人的喜好削葱、環(huán)境和道德為他們的病人做出決定奖亚。