文章來源于微信公眾號(茗創(chuàng)科技)藏否,歡迎有興趣的朋友搜索關(guān)注瓶殃。
導(dǎo)讀大腦的圖模型作為研究跨尺度和跨物種的大腦功能和結(jié)構(gòu)連接的框架具有巨大的潛力。基于網(wǎng)絡(luò)的統(tǒng)計(NBS)是對大腦圖進(jìn)行統(tǒng)計推斷的著名工具副签,它將基于團簇水平的置換檢驗和連通分量的圖論相結(jié)合遥椿,控制大規(guī)模單變量分析中的家族錯誤率。由于NBS是基于群體層面的統(tǒng)推斷計淆储,因此它無法在個體層面上實現(xiàn)知情決策冠场,然而,這對于精確醫(yī)學(xué)領(lǐng)域來說是必要的本砰。這里我們介紹NBS-Predict碴裙,這是一種新的方法,它將機器學(xué)習(xí)(ML)和NBS的強大功能結(jié)合在一個用戶友好的圖形用戶界面(GUI)中点额。通過將機器學(xué)(ML)模型與交叉驗證(CV)結(jié)構(gòu)中的連通分量相結(jié)合舔株,這種新方法提供了一種快速方便的工具來識別基于神經(jīng)成像的生物標(biāo)記物。本文的目的是(i)介紹NBS-Predict并使用兩組已知真值的仿真數(shù)據(jù)評估其性能还棱,(ii)驗證了NBS-Predict在真實病例對照研究中的應(yīng)用载慈,包括從精神分裂癥患者獲得的靜息態(tài)功能磁共振成像(rs-fMRI)數(shù)據(jù),(iii)使用人類連接組項目發(fā)布的1200名受試者rs-fMRI數(shù)據(jù)評估NBS預(yù)測珍手。我們發(fā)現(xiàn):(i)NBS預(yù)測在兩組仿真數(shù)據(jù)上具有良好的統(tǒng)計效力办铡;(ii)使用受試者的功能連接矩陣分類精神分裂癥,NBS-Predict獲得了90%的準(zhǔn)確率琳要,并在精神分裂癥組中識別出連接減少的子網(wǎng)絡(luò)寡具,主要包括位于額顳區(qū)、視覺區(qū)和運動區(qū)以及皮層下的大腦區(qū)域稚补;(iii)NBS Predict還預(yù)測了靜息狀態(tài)功能磁共振成像連接矩陣的一般智力得分童叠,預(yù)測得分為r=0.2,并確定了與一般智力相關(guān)的大規(guī)模子網(wǎng)絡(luò)孔厉≌辏總體結(jié)果表明,在識別相關(guān)特征和預(yù)測精度方面撰豺,NBS-Predict與現(xiàn)有的特征選擇算法(lasso粪般、elastic net、top 5%污桦、p-value)和基于連接體的預(yù)測建模(CPM)具有相當(dāng)或更好的性能亩歹。
前 言
人類的大腦是一個由結(jié)構(gòu)和功能連接區(qū)域組成的復(fù)雜網(wǎng)絡(luò)。大腦的結(jié)構(gòu)和功能連接在當(dāng)代神經(jīng)科學(xué)中引起了相當(dāng)大的興趣,為開發(fā)各種適合分析這些大腦網(wǎng)絡(luò)的模型鋪平了道路小作。
圖論模型是研究大腦功能和結(jié)構(gòu)網(wǎng)絡(luò)最著名的模型之一亭姥。因其豐富,多尺度以及高維的空間特征顾稀,大腦圖模型(即連接體)預(yù)示著尋找神經(jīng)生物標(biāo)志物的巨大機遇,也提出了一些新的挑戰(zhàn)粮揉。在群體水平推斷統(tǒng)計的背景下抚笔,假設(shè)的大規(guī)模單變量檢驗是識別與診斷狀態(tài)、藥物干預(yù)和其他實驗操作或環(huán)境因素相關(guān)的邊的常用方法辐宾。假設(shè)的大量單變量檢驗包括在圖中的每個連接處擬合統(tǒng)計模型,并計算相應(yīng)的p值叠纹。盡管研究人員廣泛使用這種方法吊洼,但它面臨一個重大挑戰(zhàn):多重比較,這會導(dǎo)致大量誤報。盡管使用傳統(tǒng)方法如FWE(Bonferroni)和錯誤發(fā)現(xiàn)率(FDR)控制假陽性的數(shù)量儒飒,但這些方法會導(dǎo)致統(tǒng)計效力的顯著損失(即假陰性增加)。為了克服這一挑戰(zhàn)井誉,基于網(wǎng)絡(luò)的統(tǒng)計(NBS)的方法被提出。NBS是一種著名的統(tǒng)計推斷方法在岂,用于識別根據(jù)連通圖分量定義的子網(wǎng)絡(luò)易茬。具體而言,NBS的目標(biāo)是找到包含與超過預(yù)定義閾值的統(tǒng)計效力相關(guān)的邊的連通圖分量(團塊)岸蜗。因此,與傳統(tǒng)的校正方法相比铃慷,NBS在許多情況下提供了更大的統(tǒng)計效力。近年來,NBS方法的許多擴展已經(jīng)開發(fā)出來萤悴,包括無閾值聚類增強和基于度的擴展。
隨著大規(guī)模開源數(shù)據(jù)集硝全、計算能力的進(jìn)步以及對預(yù)測性生物標(biāo)志物的興趣日益濃厚,神經(jīng)科學(xué)中對機器學(xué)習(xí)算法的需求正在增加噪径。機器學(xué)習(xí)模型在識別預(yù)測性生物標(biāo)志物方面具有廣闊的前景找爱,因為它們不受可能生成機制的偏見。盡管很有前景,但基于全腦功能連接 (FC) 的機器學(xué)習(xí)方法容易受到所謂的“維度詛咒”問題的影響意狠。樣本與特征(即預(yù)測變量)的低比率會增加過度擬合的可能性,因此經(jīng)過訓(xùn)練的模型在新數(shù)據(jù)上表現(xiàn)不佳。為了避免過擬合拦止,可以采用降維方法。預(yù)測研究通過(i)選擇與元分析網(wǎng)絡(luò)(即已有研究發(fā)現(xiàn)的相關(guān)網(wǎng)絡(luò))相對應(yīng)的區(qū)域到區(qū)域 FC 值來降低特征的維數(shù)鞠抑,(ii)僅考慮與特定興趣效應(yīng)的推論統(tǒng)計關(guān)聯(lián)的FC 值秒梳,或 (iii) 使用包含固有特征選擇程序的估計器朋譬,例如lasso or elastic net字柠。最重要的是,因為這些方法考慮孤立邊或邊的組合,而不管它們是否形成網(wǎng)絡(luò)(即連通分量)西潘,這種方法與廣泛接受的觀念相悖,即認(rèn)知或情感等高階大腦功能僅可能通過大腦區(qū)域網(wǎng)絡(luò)實現(xiàn)。因此缭黔,孤立的特征或分散特征的組合(即不形成連接網(wǎng)絡(luò)的孤立邊的組合)可能不太適合提供表征大腦功能的生物學(xué)上合理的生物標(biāo)志物。
為了緩解維度災(zāi)難、缺乏可解釋性和泛化問題喊儡,我們開發(fā)了一種新的預(yù)測方法,稱為 NBS-Predict。NBS-Predict 是 NBS 的新擴展算柳,它將重點轉(zhuǎn)移到單個個體的預(yù)測上蔗蹋。在 NBS-Predict 中绎橘,我們利用 NBS 方法的大部分內(nèi)容(置換檢驗除外)作為特征選擇方法來檢測生物相關(guān)的子網(wǎng)絡(luò)(即連通分量)涮较,并將它們與機器學(xué)習(xí)相結(jié)合以執(zhí)行基于連接組的預(yù)測。具體來說闺属,NBS-Predict在交叉驗證結(jié)構(gòu)中將圖論與機器學(xué)習(xí)算法(例如俱箱,支持向量機乃摹、決策樹)相結(jié)合來識別具有相關(guān)預(yù)測性能的圖分量。此外掰读,NBS-Predict 帶有不需要任何編程專業(yè)知識的圖形用戶界面(GUI)食寡。因此善榛,研究人員可以從易于解釋的機器學(xué)習(xí)應(yīng)用流程中受益,以促進(jìn)在大腦網(wǎng)絡(luò)中探索預(yù)測性生物標(biāo)志物。
NBS-Predict與NBS和其他預(yù)測方法有幾個不同之處叙甸。首先糖驴,NBS-Predict 的主要目的是預(yù)測個體結(jié)果變量(例如辙谜,診斷標(biāo)簽或心理測試分?jǐn)?shù)),并檢測對結(jié)果預(yù)測性能有貢獻(xiàn)的相關(guān)邊的子網(wǎng)絡(luò);即奸绷,NBS-Predict 不像 NBS 那樣比較兩組圖辛块。其次线椰,通過在 CV 結(jié)構(gòu)中運行并提供與生成的大腦網(wǎng)絡(luò)相關(guān)的預(yù)測分?jǐn)?shù)烦绳,NBS- predict在現(xiàn)實應(yīng)用中開發(fā)通用的生物標(biāo)志物方面比NBS更有優(yōu)勢,特別是在預(yù)測基于個體腦網(wǎng)絡(luò)的單個個體(例如,治療結(jié)果的預(yù)測、診斷狀態(tài))。其次呆盖,與原始 NBS 方法相比乏苦,NBS-Predict 輸出一個加權(quán)網(wǎng)絡(luò)洞就,其中權(quán)重表示特征對模型的貢獻(xiàn)程度。這個加權(quán)網(wǎng)絡(luò)提供了關(guān)于唯一邊對模型的貢獻(xiàn)的可解釋信息。因此,與一般機器學(xué)習(xí)算法(例如首尼,lasso, elastic net)相比井仰,NBS-Predict提供了更直接的特征貢獻(xiàn)解釋,而在一般機器學(xué)習(xí)算法中了罪,模型系數(shù)很難解釋难礼,必須進(jìn)行校正才能對特征貢獻(xiàn)做出基本解釋讼呢。與基于連接組的預(yù)測建模(CPM,一種使用連接組數(shù)據(jù)預(yù)測個體行為差異的機器學(xué)習(xí)方法键思,僅用于回歸問題)相比,NBS-Predict可以處理離散和連續(xù)的結(jié)果變量。CPM 僅基于特征和輸出變量之間的線性關(guān)系來選擇個體特征碱茁,而 NBS-Predict還通過使用在超閾值舊邊中識別的連通分量來考慮特征空間中的空間模式孕暇。此外穴吹,NBS-Predict為數(shù)據(jù)分析提供了完整的流程,包括預(yù)處理(例如咪惠,去混疊朵纷、縮放)、特征選擇、超參數(shù)優(yōu)化那婉、使用一組不同的機器學(xué)習(xí)算法進(jìn)行評估和可視化党瓮。它不需要任何執(zhí)行機器學(xué)習(xí)算法的經(jīng)驗详炬,使其成為一種快速、可靠且易于使用的工具寞奸。
在本文中,我們介紹了NBS-Predict方法枪萄,在幾個實驗設(shè)置中證明了這種新方法的實用性隐岛,并將其性能與適用于大腦網(wǎng)絡(luò)的現(xiàn)有機器學(xué)習(xí)和特征選擇方法(如CPM、elastic net瓷翻、lasso聚凹、top5%的特征割坠,p-value)做基準(zhǔn)測試。具體而言妒牙,我們(1)評估 NBS-Predict 在具有已知真值的兩組仿真數(shù)據(jù)上的性能彼哼;(2)將 NBS-Predict 應(yīng)用于真實的病例對照研究,該研究使用從精神分裂癥患者獲得的靜息狀態(tài) fMRI 數(shù)據(jù)湘今,先前在原始 NBS 文章中進(jìn)行了分析(Zalesky 等敢朱,2010);(3)將 NBS-Predict 應(yīng)用于來自 Human Connectome Project 發(fā)布的1200 受試者靜息態(tài) fMRI 數(shù)據(jù)象浑,以識別與一般智能相關(guān)的大腦網(wǎng)絡(luò)蔫饰。
方 法
2.1.NBS-Predict我們首先介紹了nbc-predict方法使用的一般框架、目錄和數(shù)據(jù)格式愉豺。2.1.1.連接矩陣NBS-Predict 需要 N ×N 連接矩陣作為輸入(每個被試一個矩陣),其中 N 是分割的大腦區(qū)域(或圖中的節(jié)點)的總數(shù)茫因。由于不同的腦圖譜在大腦中提供了不同層次的細(xì)節(jié)蚪拦,研究人員應(yīng)該根據(jù)他們的假設(shè)來決定分割方案。2.1.2.交叉驗證NBS-Predict在重復(fù)的交叉驗證結(jié)構(gòu)中運行(如果執(zhí)行超參數(shù)優(yōu)化冻押,則為嵌套 CV驰贷,見圖 1)。在交叉驗證的每次迭代中洛巢,使用特征選擇括袒,即超閾值邊選擇,檢測相關(guān)邊的子集稿茉。然后對未用于特征選擇的數(shù)據(jù)評估預(yù)測準(zhǔn)確性锹锰。如果需要,可以在內(nèi)循環(huán)中調(diào)整超參數(shù)漓库。交叉驗證已被廣泛用于估計機器學(xué)習(xí)模型的性能恃慧。在交叉驗證過程中,數(shù)據(jù)被分成K個子集渺蒿,對于每次迭代痢士,從K個子集中選擇一個作為測試集,而剩余的子集(即K -1個子集)組合為用作訓(xùn)練集茂装。交叉驗證結(jié)構(gòu)重復(fù)r次怠蹂,以減少模型性能估計中的變化。2.1.3.?通用算法
圖 1. NBS-Predict 算法示意圖少态。NBS-Predict 使用連接矩陣作為輸入城侧。NBS-Predict中使用的交叉驗證結(jié)構(gòu)由兩個循環(huán)組成:(i)在外循環(huán)中,進(jìn)行超閾值邊選擇(即特征選擇)况增,并使用所選的連通分量執(zhí)行模型評估赞庶;(ii) 如果需要,在內(nèi)部循環(huán)中,執(zhí)行超參數(shù)優(yōu)化歧强。通過外部折選定的連通分量乘以相應(yīng)折的樣本外分?jǐn)?shù)澜薄。在外部循環(huán),加權(quán)鄰接矩陣計算為所選連通分量的鄰接矩陣的平均值摊册。每條邊的權(quán)重表示所選連通分量中存活的邊以及在相應(yīng)折中訓(xùn)練的模型的預(yù)測性能肤京。這個加權(quán)鄰接矩陣是 NBS-Predict 的輸出,同時是整體預(yù)測性能茅特。研究人員可以進(jìn)一步設(shè)置這個矩陣的閾值忘分,以可視化包含整個模型最相關(guān)邊的子網(wǎng)絡(luò)。此外白修,如果需要妒峦,NBS-Predict 會連續(xù)運行適合給定機器學(xué)習(xí)問題(回歸或分類)的不同機器學(xué)習(xí)算法,并返回性能最佳的算法結(jié)果兵睛。
NBS-Predict工作流程示意圖如圖 1 所示肯骇。從每個連接矩陣中提取出唯一的邊并存儲在矩陣中,其中每一行代表一個不同的被試祖很,每一列包含特定邊的連通性值(例如笛丙,皮爾遜相關(guān)系數(shù))。在外循環(huán)中假颇,該矩陣根據(jù)交叉驗證方案(K折或留一法)在被試維度上拆分胚鸯,并且可選地將訓(xùn)練集轉(zhuǎn)移到內(nèi)循環(huán)進(jìn)行超參數(shù)優(yōu)化。超閾值邊選擇:NBS-Predict 在外循環(huán)的訓(xùn)練集中使用超閾值邊選擇(如果執(zhí)行超參數(shù)優(yōu)化笨鸡,也可以內(nèi)循環(huán)中執(zhí)行)來識別超閾值邊集中的連通分量姜钳。超閾值邊選擇與原始 NBS 方法相同。具體來說镜豹,超閾值邊選擇包括以下步驟:(i)每條邊擬合一個基于給定對比度的一般線性模型(t-test 或 F-test)傲须,并計算相應(yīng)的 p 值;(ii) 然后初始選擇 p 值低于預(yù)定義 p-value(例如趟脂,0.01)的邊泰讽;(iv) 然后使用呼吸優(yōu)先搜索算法識別可能存在于超閾值邊集中的連通分量;(v)選擇存在于最大連通分量中的超閾值邊以進(jìn)一步用于訓(xùn)練機器學(xué)習(xí)模型昔期。與原始 NBS 方法(使用置換檢驗來推導(dǎo)已識別圖分量的重要性)相比已卸,NBS-Predict 中沒有應(yīng)用置換測試,因為(最大的)連通分量僅用于特征選擇硼一,而不管其相關(guān)的家族錯誤累澡。請注意,p 值選擇決定了輸入到機器學(xué)習(xí)模型的所選連通分量的大小般贼,從而影響預(yù)測性能愧哟。
模型評估:在機器學(xué)習(xí)算法訓(xùn)練和測試期間奥吩,最大連通分量中存在的超閾值邊的連接值用作的特征(即預(yù)測器)。NBS-Predict中可用的機器學(xué)習(xí)模型在附錄1中給出蕊梧。在外循環(huán)的每次迭代中霞赫,訓(xùn)練模型,并在測試集上評估訓(xùn)練模型的預(yù)測性能肥矢。存在于測試的連通分量中的超閾值邊然后被分配有這種預(yù)測性能端衰。將預(yù)測性能分配給這些邊,考慮了預(yù)測性能可能在交叉驗證折之間變化的可能性甘改,從而能正確評估邊對整個模型的貢獻(xiàn)旅东。因此,每條邊的賦值代表了所選連通分量中存在的邊以及在相應(yīng)折中訓(xùn)練的模型的預(yù)測性能(即未選擇的邊設(shè)置為0)十艾。幾個性能指標(biāo)可用于衡量模型的預(yù)測性能(見附錄 2)抵代。上面提到的所有步驟都重復(fù)r×K次,其中r是CV結(jié)構(gòu)的重復(fù)次數(shù)疟羹,K是折數(shù)主守。
超參數(shù)優(yōu)化:可選地,可以在內(nèi)循環(huán)中優(yōu)化各種機器學(xué)習(xí)算法的超參數(shù)榄融。在內(nèi)部循環(huán)的每個折中,執(zhí)行超閾值邊選擇救湖,并使用交叉驗證評估相應(yīng)超參數(shù)的幾個候選值的性能愧杯。然后將最大限度地提高預(yù)測性能的一組參數(shù)用于外循環(huán)。附錄1給出了 NBS-Predict 中可能的超參數(shù)鞋既。
加權(quán)矩陣:作為最后一步力九,所有外部折的連通分量的加權(quán)鄰接矩陣(未選擇的邊被指定為 0)平均和縮放,產(chǎn)生一個平均加權(quán)網(wǎng)絡(luò)邑闺,其中權(quán)重代表邊對整體模型的貢獻(xiàn)跌前。例如,在外折的大多數(shù)分量中都發(fā)現(xiàn)了具有高權(quán)重的邊陡舅,這表明該邊是預(yù)測目標(biāo)變量的重要生物標(biāo)志物抵乓。隨后,研究人員可以對生成的網(wǎng)絡(luò)應(yīng)用閾值靶衍,以將最重要的特征可視化為子網(wǎng)絡(luò)灾炭。這為用戶提供了對網(wǎng)絡(luò)邊對預(yù)測性能的貢獻(xiàn)的直接解釋。這是 NBS-Predict 優(yōu)于其他預(yù)測方法的一個優(yōu)勢颅眶,因為(i)從機器學(xué)習(xí)算法得出的權(quán)重向量(即系數(shù))不穩(wěn)定且不易解釋蜈出,以及(ii)其他機器學(xué)習(xí)算法忽略數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)。注意涛酗,人們還可以將邊權(quán)重解釋為所選邊的顯著性強度铡原,因為這些是通過結(jié)合經(jīng)典的一般線性模型和連通分量來選擇的(即偷厦,較高的邊值表示在大多數(shù)交叉驗證折中,邊被認(rèn)為是顯著的)燕刻。
模型性能:總體而言只泼,樣本外預(yù)測性能是通過對外部循環(huán)的選定連通分量的預(yù)測分?jǐn)?shù)進(jìn)行平均來獲得的。這個性能代表了整個模型的預(yù)測性能酌儒。值得注意的是辜妓,子網(wǎng)絡(luò)在加權(quán)閾值化后的預(yù)測性能可能與整體性能不同,因為閾值化幾乎肯定會導(dǎo)致與原始特征集不同的特征集(即子網(wǎng))(即忌怎,在每個CV折中特征選擇的連通分量)籍滴。盡管如此,NBS-Predict 允許計算事后子網(wǎng)的預(yù)測性能榴啸。但是孽惰,應(yīng)該注意的是,用戶不應(yīng)僅根據(jù)生成的子網(wǎng)絡(luò)的預(yù)測性能來選擇權(quán)重閾值鸥印,因為這可能會導(dǎo)致過擬合勋功。
預(yù)測算法選擇:由于事先不知道性能最好的預(yù)測算法,如果需要库说,CV結(jié)構(gòu)在額外的非CV循環(huán)中運行狂鞋,在那里確定性能最佳的預(yù)測算法。具體來說潜的,NBS-Predict使用適合問題性質(zhì)(分類與回歸)的各種機器學(xué)習(xí)算法執(zhí)行整個訓(xùn)練和測試過程骚揍,并返回由性能最佳的機器學(xué)習(xí)算法得出的結(jié)果。盡管如此啰挪,用戶還是可以查看其他候選算法的結(jié)果信不。NBS-Predict中使用的所有回歸(線性回歸、支持向量回歸和決策樹回歸)和分類(邏輯回歸亡呵、支持向量分類抽活、決策樹分類和線性判別分析)算法均來自通過 MATLAB 開發(fā)的Statistics and Machine Learning Toolbox。
圖2. NBS-Predict GUI的截圖锰什。
2.1.4.圖形用戶界面
圖 2 顯示了 NBS-Predict 的圖形用戶界面(GUI)下硕。雖然類似于 NBS GUI,但它具有額外的機器學(xué)習(xí)操作歇由。用戶必須提供相關(guān)矩陣卵牍、腦區(qū)、設(shè)計矩陣和對比向量來分析連接組數(shù)據(jù)沦泌。用戶可以另外選擇特定的分類或回歸算法糊昙。該界面允許用戶運行超參數(shù)優(yōu)化,選擇超參數(shù)優(yōu)化的搜索方法(例如谢谦,網(wǎng)格搜索释牺、隨機搜索和貝葉斯優(yōu)化)萝衩,定義 CV結(jié)構(gòu)的折數(shù)和重復(fù)次數(shù),并定義一個特定的p-value用于特征選擇没咙。NBS-Predict提供了更廣泛的性能評估指標(biāo)和縮放方法猩谊。如果需要,也可以進(jìn)行并行處理祭刚。在數(shù)據(jù)分析之后牌捷,用戶可以將結(jié)果可視化為加權(quán)網(wǎng)絡(luò)或超閾值子網(wǎng)絡(luò)、熱圖涡驮、環(huán)形網(wǎng)絡(luò)或由 BrainNet Viewer 生成的 3D 大腦表面暗甥。由于工具箱定期更新和擴展新功能和更直觀的 GUI 元素,工具箱中共享了最新和詳細(xì)的用戶指南捉捅,可在?https://github.com/eminSerin/NBS-Predict
和?https://www.nitrc.org/projects/nbspredict/上找到撤防。
用戶指南清楚地說明了工具箱的安裝、工具箱在現(xiàn)實世界功能連接數(shù)據(jù)集的應(yīng)用以及高級使用實踐棒口。此外寄月,工具箱中還提供了詳細(xì)的數(shù)據(jù)分析演示說明,工具箱中提供了手稿的第一和第三個應(yīng)用无牵。2.2應(yīng)用 1在第一個應(yīng)用中漾肮,評估了NBS-Predict在識別兩組仿真數(shù)據(jù)的分類和回歸問題中的相關(guān)圖連接方面的性能。2.2.1.仿真數(shù)據(jù)使用Zalesky等人(2010)提出的方法生成了兩組用于回歸和分類問題的仿真數(shù)據(jù)茎毁。(2010)初橘。無標(biāo)度網(wǎng)絡(luò)是一種度分布的網(wǎng)絡(luò),它遵循冪律充岛,即有限數(shù)量的節(jié)點具有較大的度(即,與許多節(jié)點相連)并且大多數(shù)節(jié)點具有較小的度耕蝉。我們選擇 Barabási-Albert 模型來生成一個無標(biāo)度隨機網(wǎng)絡(luò)崔梗,因為這可以生成一個只有三個參數(shù)的全連接網(wǎng)絡(luò):N為網(wǎng)絡(luò)中的節(jié)點數(shù),m為每次迭代中新添加的節(jié)點連接到的現(xiàn)有節(jié)點的數(shù)量,e為新節(jié)點連接到現(xiàn)有節(jié)點的邊數(shù)垒在。在第一個仿真數(shù)據(jù)集中蒜魄,一定數(shù)量的對比噪聲比嵌入到網(wǎng)絡(luò)中給定數(shù)量的邊中,以模擬組級差異(即感興趣效應(yīng))场躯。生成過程如下:(i)使用 Barabási-Albert 模型(N = 100谈为,m = 21,e = 10)生成包含 100 個節(jié)點和 1000 個邊的無標(biāo)度隨機網(wǎng)絡(luò)踢关;(ii) 使用廣度優(yōu)先搜索算法從隨機選擇的節(jié)點中識別出 50 條邊伞鲫;(iii) 在控制組中,網(wǎng)絡(luò)中的所有邊都僅分配有噪聲签舞,即均值為 μ= 0 且標(biāo)準(zhǔn)差為σ = 1 的高斯分布秕脓;(iv) 在控制組中柒瓣,除了先前使用廣度優(yōu)先搜索算法識別的 50 個邊外,所有邊都分配了噪聲吠架。這 50 個邊被分配有標(biāo)準(zhǔn)偏差 σ = 1 的高斯分布和對比值的平均值芙贫,即對比噪聲比 (CNR)。0.25傍药、0.5磺平、0.75 和 1.0 的對比噪聲比用于評估 NBS-Predict 在識別包含具有不同效應(yīng)大小的邊的連通分量方面的性能。生成第二組仿真數(shù)據(jù)的目的是評估 NBS-Predict 在回歸問題中識別真實情況邊的性能拐辽。為此拣挪,我們使用了下面流程的仿真數(shù)據(jù):(i) 生成了與之前過程生成的數(shù)據(jù)相同大小的無標(biāo)度隨機網(wǎng)絡(luò),并使用廣度優(yōu)先搜索識別了50條邊薛训;(ii) 所有邊都分配有高斯噪聲媒吗;(iii) 生成一個全零系數(shù)向量,用作線性模型中的系數(shù)乙埃;(iv) 在這個系數(shù)向量中闸英,用0 到 1 之間均勻分布的隨機數(shù)分配50 個先前識別的邊的系數(shù)值;(v) 結(jié)果(即目標(biāo)變量 y )計算為預(yù)測變量(即邊)和相應(yīng)系數(shù)的點積介袜;(vi) 標(biāo)準(zhǔn)差為σ∈{0.1, 1.0, 3.0, 5.0} 的高斯噪聲添加到結(jié)果中甫何。2.2.2.流程使用受試者操作特征曲線(ROC) 曲線評估 NBS-Predict 在已知數(shù)據(jù)真值的仿真網(wǎng)絡(luò)上的統(tǒng)計效力。ROC曲線是真陽性率(即敏感性或召回率)與假陽性率(即脫落率)的圖遇伞。ROC 曲線廣泛用于神經(jīng)科學(xué)和醫(yī)學(xué)辙喂。此外,分別使用分類精度和 Pearson 相關(guān)系數(shù)評估 NBS-Predict 在第一個和第二個仿真網(wǎng)絡(luò)上的樣本外預(yù)測性能鸠珠。為了評估NBS-Predict在第一個仿真數(shù)據(jù)集上的性能巍耗,NBS-Predict(10 折CV,重復(fù) 10 次渐排,p值= 0.01)對每個CNR運行1000次炬太。在每次迭代中,生成2組仿真網(wǎng)絡(luò)組(50個對照和與相應(yīng)CNR對比的50個(具有興趣對比的子網(wǎng)每次迭代都會變化)驯耻;運行NBS-Predict 以識別嵌入感興趣真實對比度的連通分量亲族。計算用于識別具有真實感興趣對比度和樣本外預(yù)測性能的連通分量的真陽性率(TPR)和假陽性率(FPR)。在模擬之后可缚,使用整體真陽性率和假陽性率作為所選權(quán)重閾值的函數(shù)構(gòu)建ROC 曲線霎迫。在二組仿真數(shù)據(jù)上使用了類似的流程,除了在每次實現(xiàn)時生成了一組由250個網(wǎng)絡(luò)組成的仿真網(wǎng)絡(luò)帘靡,這些網(wǎng)絡(luò)具有相應(yīng)的噪聲值知给。在兩組仿真數(shù)據(jù)上,NBS-Predict 的性能與其他特征選擇方法(lasso测柠、elastic net炼鞠、top 5%缘滥、p-value)進(jìn)行了比較。在top 5% 方法中谒主,top 5% 的邊是根據(jù)它們的測試統(tǒng)計值(例如朝扼,t 值、F 值)選擇的霎肯,而邊則僅根據(jù) p閾值技術(shù)中的相應(yīng) p 值進(jìn)行選擇擎颖。我們只在第二組仿真數(shù)據(jù)上運行 CPM,因為第一組的目標(biāo)變量是二進(jìn)制的观游。我們分別對第一組和第二組仿真數(shù)據(jù)使用邏輯回歸和線性回歸搂捧。我們在lasso(默認(rèn)參數(shù))和elastic net(alpha = 0.5,lambda = 0.1)中使用了這些算法的正則化版本懂缕。為了執(zhí)行elastic net允跑,我們使用了 GLMNET 庫(http://www-stat.stanford.edu/~tibs/glmnet-matlab/)中的函數(shù),而其他機器學(xué)習(xí)算法則來自于MATLAB開發(fā)的統(tǒng)計和機器學(xué)習(xí)工具箱(MathWorks搪柑,2017 年)聋丝。在 NBS-Predict、CPM 和 p-value閾值方法中工碾,p 值參數(shù)設(shè)置為 0.01弱睦。在所有方法中,我們使用相同的 CV 結(jié)構(gòu)(10 次重復(fù) 10 折 CV)渊额。在 CPM 中况木,top 5% 的特征和p-value閾值,邊權(quán)重表示邊在不同 CV 折中重疊的程度(即旬迹,邊權(quán)重為 1 表示在所有 CV 折中被選為特征)火惊。然而,來自elastic net和lasso算法的加權(quán)網(wǎng)絡(luò)中的權(quán)重表示使用 Haufe 等人奔垦,2014 中所示的方法校正的相應(yīng)平均線性估計器系數(shù)(即激活模式)矗晃。這些來自Elastic Net和lasso的權(quán)重也被縮放為具有跨算法權(quán)重的標(biāo)準(zhǔn)比例。為了比較它們的性能宴倍,我們對所有可選特征選擇方法重復(fù)了上述模擬過程。此外仓技,我們評估了結(jié)果子網(wǎng)的性能-作為幾個權(quán)重閾值的函數(shù)預(yù)測目標(biāo)(結(jié)果鸵贬,y)變量。為此脖捻,我們將一系列權(quán)重閾值應(yīng)用于加權(quán)網(wǎng)絡(luò)(該網(wǎng)絡(luò)由NBS-Predict應(yīng)用于兩組仿真網(wǎng)絡(luò)生成)阔逼,進(jìn)一步調(diào)查結(jié)果子網(wǎng)絡(luò)在其結(jié)果預(yù)測性能方面的變化程度。我們在附錄 3 和 4 中報告了這些結(jié)果地沮。值得注意的是嗜浮,在兩組仿真網(wǎng)絡(luò)中羡亩,強加真值的邊形成了一個網(wǎng)絡(luò),這可能為NBS-Predict提供有利的性能評估危融,因為它在特征選擇過程中利用了連通分量畏铆。為了對NBS-Predict和其他算法的性能進(jìn)行更平衡的評估,我們進(jìn)一步研究了 NBS-Predict 和其他算法在識別不形成子網(wǎng)的相關(guān)孤立邊(即興趣效應(yīng))方面的性能吉殃。為此辞居,我們重復(fù)了用于生成第一組和第二組仿真數(shù)據(jù)的類似過程,只是隨機選擇了50個相關(guān)邊(即未應(yīng)用廣度優(yōu)先搜索算法)蛋勺。我們重復(fù)了上述相同的性能評估流程瓦灶,并在附錄5-10中報告了這些結(jié)果。2.3.應(yīng)用流程 2在第二個應(yīng)用中抱完,我們旨在評估 NBS-Predict 在靜息狀態(tài)功能連接數(shù)據(jù)的真實病例對照研究中的性能贼陶。為此,我們使用了從精神分裂癥患者和健康對照組獲得的靜息狀態(tài)fMRI 數(shù)據(jù)巧娱。這些數(shù)據(jù)之前曾在 NBS 的原始論文中進(jìn)行過研究碉怔。我們的目標(biāo)是使用 NBS-Predict 來復(fù)現(xiàn)先前證明的與精神分裂癥相關(guān)的連接失調(diào)的子網(wǎng)絡(luò)。我們還旨在比較 NBS-Predict 與其他特征選擇算法(top 5%家卖、elastic net眨层、lasso、p-value)在真實連接組數(shù)據(jù)上的分類性能上荡。2.3.1.樣本研究樣本包括12名精神分裂癥患者(μ年齡=32.8趴樱,σ年齡=9.2歲,2名女性)和15名健康對照組(μ年齡=33.3歲酪捡,σ年齡=9.2歲叁征,1名女性)。精神分裂癥患者根據(jù)《精神障礙診斷和統(tǒng)計手冊IV》進(jìn)行診斷逛薇。兩組患者的教育年限捺疼、智商和年齡均相匹配。2.3.2.fMRI數(shù)據(jù)采集在英國劍橋的 BUPA Lea 醫(yī)院使用 1.5 Tesla GE Signa 掃描儀(General Electric永罚,Milwaukee啤呼,WI)獲得了 T2 * 加權(quán)回波平面圖像(TR/TE:2 s/40 ms,翻轉(zhuǎn)角:70 ?呢袱,體素尺寸:3.05 ×3.05 ×7 mm官扣,切片間隙:0.7 mm,卷數(shù):512)羞福。2.3.3?預(yù)處理本研究采用Zalesky等人(2010)提出的預(yù)處理方法惕蹄。使用自動解剖標(biāo)記(AAL)進(jìn)行重新排列和運動校正,并將除小腦外的所有大腦區(qū)域識別和描繪為節(jié)點(共74個節(jié)點)。然后平均每個節(jié)點(大腦區(qū)域)的時間序列卖陵。然后回歸掉不感興趣的干擾信號遭顶,來校正頻率范圍 0.03 < f < 0.06 Hz 內(nèi)的大腦信號。這個頻率范圍是通過使用最大重疊小波變換對每個節(jié)點的時間序列信號分解得到的泪蔫。2.3.4.使用NBS-Predict進(jìn)行數(shù)據(jù)分析對于每個受試者棒旗,計算每個節(jié)點過濾和校正后的時間序列之間的兩兩相關(guān)性并存儲在74 ×74連接矩陣中。然后使用10折CV結(jié)構(gòu)的NBS-Predict (p-value = 0.01)來發(fā)現(xiàn)與精神分裂癥相關(guān)的非連接子網(wǎng)絡(luò)鸥滨。由于樣本很小嗦哆,因此 CV 流程重復(fù)了 50 次。使用網(wǎng)格搜索算法優(yōu)化超參數(shù)婿滓。還對分類算法進(jìn)行了優(yōu)化老速。由于樣本很小,因此 CV 程序重復(fù)了 50 次凸主。使用網(wǎng)格搜索算法優(yōu)化超參數(shù)橘券。還對分類算法進(jìn)行了優(yōu)化。使用 Dice 系數(shù)和 Jaccard 指數(shù)評估 NBS-Predict 和 NBS 發(fā)現(xiàn)的連接失調(diào)子網(wǎng)之間的相似性卿吐。NBS-Predict該數(shù)據(jù)集的分類性能進(jìn)一步與elastic net脂凶、lasso淑玫、top 5%和 p-value閾值特征選擇算法進(jìn)行了比較。在所有方法中,類似的 CV 程序(即 10 次重復(fù) 10 倍 CV)重復(fù) 1000 次整袁,以獲得算法性能的精確置信區(qū)間前弯。2.4.應(yīng)用 3在第三個應(yīng)用中盏缤,我們使用 NBS-Predict 在大樣本量的靜息態(tài) fMRI 中研究智力的神經(jīng)基礎(chǔ)誓竿。為此,使用了來自人類連接組計劃 1200 名受試者的 897 名受試者樣本婆咸。此外竹捉,還將 NBS-Predict 對 HCP 數(shù)據(jù)的樣本外預(yù)測性能與其他算法(CPM、top 5%尚骄、elastic net块差、lasso、p-value)進(jìn)行了比較倔丈。2.4.1.樣本
人類連接組計劃的 1200 名受試者版本包含 1206 個受試者(Glasser 等人憨闰,2016 年)。309 名受試者由于缺失神經(jīng)影像數(shù)據(jù)或智力測量值缺失被排除在外需五,留下 897名樣本(μ age = 28.76起趾,σ age = 3.69,406 名男性)警儒。樣本的人口統(tǒng)計特征如表 1 所示。
表1樣本人口統(tǒng)計:從人類連接組項目發(fā)布的1200名受試者中選出897名受試者。
注:年齡和分?jǐn)?shù)表示為平均值±標(biāo)準(zhǔn)差蜀铲。
2.4.2.智力得分
由于這項研究的目的是調(diào)查一般智力的神經(jīng)相關(guān)因素边琉,我們使用了來自每個受試者的一般智力分?jǐn)?shù)。具體來說记劝,一般智力區(qū)分為流體智力和晶體智力的加權(quán)總和变姨。為了計算每個人的一般智力得分,我們引入了NIH工具箱(NIHTB-CB)認(rèn)知成套測驗的兩個綜合分?jǐn)?shù):(i)結(jié)晶認(rèn)知(源自口語閱讀和圖片詞匯量表的總分)和(ii)流體認(rèn)知(計算為圖片序列記憶厌丑、維度購物車排序定欧、列表排序、處理速度和側(cè)翼量表的總分)怒竿。綜合每個個體的綜合得分得出一般智力得分砍鸠。
2.4.3.功能磁共振數(shù)據(jù)采集
本研究使用了人類連接組計劃發(fā)布的1200名受試者的靜息狀態(tài)功能磁共振成像數(shù)據(jù)。梯度回波平面圖像是在位于圣路易斯華盛頓大學(xué)的 3T Siemens connectome-Skyra 掃描儀上獲取的耕驰。成像參數(shù)如下:TR/TE:720 ms / 33.1 ms爷辱,翻轉(zhuǎn)角:52?,F(xiàn)OV:208 × 180 mm朦肘,切片數(shù):72饭弓,切片厚度:2 mm。受試者被指示在四次 rs-fMRI 數(shù)據(jù)采集期間注視十字準(zhǔn)線媒抠,每次持續(xù)約 15 分鐘弟断。
2.4.4.預(yù)處理
用HCP最小預(yù)處理管道和netmats管道預(yù)處理rs-fMRI 數(shù)據(jù)。對MNI-152模板進(jìn)行了 B0-unwarping和歸一化趴生。使用 FMRIB 的基于ICA的Xnoiseifier (FIX)去除了結(jié)果數(shù)據(jù)中的偽影阀趴。為了生成功能網(wǎng)絡(luò),Power等人使用圖譜描繪了節(jié)點(264個區(qū)域)冲秽。使用Pearson相關(guān)系數(shù)評估每對節(jié)點之間的功能連接舍咖,為每個受試者生成一個264 × 264的相關(guān)矩陣。該預(yù)處理程序由Kruschwitz等人提出锉桑。
2.4.5.?數(shù)據(jù)分析與NBS-Predict
我們使用10次重復(fù)的5折嵌套 CV(p值=0.01)運行NBS-Predict排霉,并使用網(wǎng)格搜索算法進(jìn)行超參數(shù)優(yōu)化。我們使用 Snoek 等人中所示的技術(shù)縮放數(shù)據(jù)民轴,并回歸年齡和性別因素攻柠,以控制任何潛在的混淆。此外后裸,我們比較了NBS-Predict在基于受試者連接組預(yù)測一般智力分?jǐn)?shù)方面的性能與其他算法(CPM瑰钮、top 5% 的特征、elastic net微驶、lasso和p-value)浪谴。我們通過重復(fù) CV 程序 500 次來生成算法性能的置信區(qū)間开睡。
結(jié) 果
3.1.應(yīng)用流程 1
圖 3 中呈現(xiàn)的?ROC 曲線顯示了 NBS-Predict 和其他算法在識別分類生成的與對比相關(guān)的第一組仿真數(shù)據(jù)的邊的性能。NBS-Predict 和其他算法產(chǎn)生了良好的統(tǒng)計效力苟耻。這種效力的增強來源于CNR篇恒;這些算法在 CNR = 1.00 條件下得出了最高的真陽性率和較低的假陰性率。除了圖 3凶杖,附錄 11 顯示了特征選擇算法在假陽性率為0.01時的真陽性率胁艰。NBS-Predict 在 0.25 CNR 條件下測試的所有其他特征選擇算法都優(yōu)于其他所有特征選擇算法,這表明 NBS-Predict 比其他算法在低對比度數(shù)據(jù)中具有優(yōu)勢智蝠。對于 0.5 CNR腾么,除了Elastic Net之外,NBS-Predict 的表現(xiàn)優(yōu)于其他特征選擇算法杈湾。Lasso 和elastic net在 0.75 CNR 和 1.0 CNR 條件下的性能優(yōu)于其他算法解虱。
NBS-Predict 和其他算法的分類精度如圖 4 所示。在 0.25 CNR 條件下毛秘,NBS-Predict 優(yōu)于elastic net和 p-value饭寺,同時與lasso和top 5% 算法產(chǎn)生相似的分類精度。然而叫挟,在其他 CNR 條件下艰匙,elastic net的性能明顯優(yōu)于其他算法。
圖 5 顯示了?NBS-Predict 和其他幾種特征選擇方法在識別回歸問題中的相關(guān)邊方面的預(yù)測能力抹恳。如圖 5 和附錄 12 所示员凝,NBS-Predict 在所有噪聲條件下以 0.01 的假陽性率水平提供最高的真陽性率。值得注意的是奋献,NBS-Predict 相對于其他算法的優(yōu)勢隨著噪聲的增加而增加健霹,隨著誤報率的增加而減少。
圖6顯示了算法在四種噪聲條件下瓶蚂,預(yù)測連續(xù)目標(biāo)變量(結(jié)果)的性能糖埋。結(jié)果表明,除了5.0噪聲條件外窃这,elastic net在大多數(shù)噪聲條件下都是最佳算法瞳别。p-value算法延續(xù)了elastic net在0.1和1.0噪聲條件下的優(yōu)越性能。它還在 3.0 噪聲條件下使用一組正邊獲得了與 NBS-Predict 和 CPM 相似的預(yù)測性能杭攻,這兩種算法的預(yù)測性能均優(yōu)于上述算法祟敛。除了在 0.1 噪聲條件下表現(xiàn)更好之外,NBS-Predict還在正邊大多數(shù)噪聲條件下都實現(xiàn)了與 CPM 相似的性能兆解。然而馆铁,CPM分別在使用負(fù)邊集、top 5% 和lasso的所有噪聲條件下實現(xiàn)了最低的預(yù)測性能锅睛。
圖 3 和圖 5 還表明埠巨,實現(xiàn)足夠 TPR 所需的權(quán)重閾值可能因 CNR 和噪聲而異历谍,但低權(quán)重閾值(即約 0.2-0.3)可提供具有高 TPR 和低 FPR 的子網(wǎng)絡(luò)。此外辣垒,總的來說扮饶,NBS-Predict 在兩個仿真數(shù)據(jù)集上產(chǎn)生的 FPR 低于其他算法。
算法的平均CPU運行時間如圖7所示乍构。除了Elastic Net之外,算法在完成分析分類和回歸任務(wù)中都花費了相對相似的 CPU 時間來扛点。然而哥遮,elastic net算法在分類任務(wù)中的運行速度明顯更快,而在回歸任務(wù)中是最慢的算法陵究。
圖 3. 受試者操作特征 (ROC) 曲線用于評估 NBS-Predict 和其他特征選擇算法(elastic net眠饮、lasso、top 5%和 p-value)在識別具有不同對比度噪聲比 (CNR) :(a) 0.25铜邮、(b) 0.50仪召、(c) 0.75 和 (d) 1.00 的邊時的特異性和敏感性。NBS-Predict(10 次重復(fù) 10 折 CV)應(yīng)用于 100 × 100 合成無標(biāo)度網(wǎng)絡(luò)松蒜,其中 50 條邊分配了相應(yīng)的對比度噪聲比扔茅。其他算法也采用了類似的 CV 結(jié)構(gòu)(10 次重復(fù) 10 折 CV)和模擬流程。每個點表示使用特定權(quán)重閾值的相應(yīng)算法的 TPR 和 FPR秸苗。權(quán)重閾值以相反的順序繪制召娜。注意,圖中的最大FPR設(shè)置為 0.1惊楼。在0.75和1.00 CNR條件下玖瘸,F(xiàn)PR是以10為底的對數(shù)比例尺給出的。
圖 4. NBS-Predict 和其他算法(elastic net檀咙、lasso雅倒、top 5%和 p-value)在四種對比度噪聲比 (CNR) 條件下的分類精度:(a) 0.25、(b) 0.50弧可、(c) 0.75 和 (d) 1.00蔑匣。每個圖中描繪的誤差條代表 95% 的置信區(qū)間 (p < 0.05)。
圖 5. 受試者操作特征(ROC) 曲線用于評估 NBS-Predict 和其他算法(elastic net侣诺、lasso殖演、top 5% 的特征、p-value特征選擇算法和 CPM)在四種不同的噪聲條件下(a) 0.1年鸳、(b) 1.0趴久、(c) 3.0 和 (d) 5.0用真值識別邊的特異性和敏感性。在每個噪聲條件下搔确,相應(yīng)的噪聲被添加到由100 × 100 無標(biāo)度網(wǎng)絡(luò)生成的50個相關(guān)邊的目標(biāo)(即結(jié)果彼棍,y)變量中灭忠。然后將具有各種特征選擇算法和 CPM(均使用 10 次重復(fù) 10 折 CV)的 NBS-Predict 應(yīng)用于這些合成的無標(biāo)度網(wǎng)絡(luò)。類似的 CV 結(jié)構(gòu)(10 次重復(fù) 10 折 CV)和模擬流程用于其他算法座硕。在 CPM 中弛作,陰性和陽性網(wǎng)絡(luò)被結(jié)合起來評估整體特異性和敏感性。每個點使用特定的權(quán)重閾值表示相應(yīng)算法的 TPR 和 FPR华匾。權(quán)重閾值以相反的順序繪制映琳。請注意,圖中的最大 FPR 設(shè)置為 0.1蜘拉。
圖 6. 在四種噪聲條件下 (a) 0.1, (b) 1.0, (c) 3.0, (d) 5.0萨西,NBS-Predict 和其他算法(elastic net、lasso旭旭、top 5% 特征谎脯、p-value和 CPM)在預(yù)測連續(xù)目標(biāo)變量方面的性能(即 Pearson 相關(guān)系數(shù))。每個圖中描繪的誤差條代表 95% 的置信區(qū)間 (p < 0.05)持寄。
3.2.應(yīng)用流程 2
NBS-Predict的分類準(zhǔn)確度為0.900(95% CI:0.888–.913)源梭,敏感性為91.5%,特異性為87.2%稍味。決策樹分類器被發(fā)現(xiàn)是性能最好的算法(表 2)废麻。加權(quán)網(wǎng)絡(luò)及其鄰接矩陣如圖8所示。
應(yīng)用最保守的特征權(quán)重閾值(即 1.0)來可視化包含相關(guān)邊的子網(wǎng)絡(luò)仲闽,在11個大腦區(qū)域中識別出13個連接降低子網(wǎng)絡(luò)脑溢。左側(cè)運動輔助區(qū)和左側(cè)Heschl回是最大程度的不連接區(qū)(節(jié)點度數(shù)=5,表3)赖欣。然而屑彻,通過更寬松的閾值0.9,NBS-Predict 在精神分裂癥患者組中發(fā)現(xiàn)了一個連接失調(diào)的子網(wǎng)絡(luò)顶吮,這與原始 NBS 論文中確定的子網(wǎng)絡(luò)高度相似(Dice = 0.96社牲,Jaccard = 0.93),盡管略有不同(圖 9悴了,詳見討論)搏恤。與精神分裂癥相關(guān)的子網(wǎng)絡(luò)包含 28 個節(jié)點和 41 個邊,這意味著在精神分裂癥組中湃交,總共 74 個大腦皮層區(qū)域中有 28 個區(qū)域的連接減少熟空。連接失調(diào)的大腦區(qū)域的節(jié)點度如表 4 所示。連接失調(diào)不僅出現(xiàn)在大腦的前部搞莺,如額葉息罗、額顳葉和運動區(qū)域,而且還出現(xiàn)在皮層下區(qū)域才沧,如左側(cè)海馬體迈喉、左側(cè)扣帶回和中間回绍刮、左側(cè)杏仁核,以及后部區(qū)域挨摸,如左側(cè)枕上回和右側(cè)舌回(圖9)孩革。分析顯示兩個半球的大腦區(qū)域之間存在連接失調(diào)。左半球的連接失調(diào)更明顯得运,表明精神分裂癥連接失調(diào)的半球相對不對稱膝蜈。在所識別的子網(wǎng)中發(fā)現(xiàn)左側(cè) Heschl 回具有最高的節(jié)點度數(shù)14,如表 4 所示熔掺。圖 10 顯示了 NBS-Predict 和其他算法的分類精度彬檀。采用超參數(shù)優(yōu)化的 NBS-Predict 實現(xiàn)了最高的分類準(zhǔn)確率。沒有超參數(shù)優(yōu)化的 p-value和 NBS-Predict 產(chǎn)生了類似的分類性能瞬女。然而,lasso和top 5%的特征并沒有超過上面的組分類努潘。
圖 7. 在兩組仿真網(wǎng)絡(luò)上應(yīng)用 NBS-Predict 和其他算法(CPM诽偷、elastic net、lasso疯坤、top 5% 的特征和 p-value)得出的平均 CPU 運行時間結(jié)果报慕。每個圖中描繪的誤差條代表 95% 的置信區(qū)間 (p < 0.05)。請注意压怠,圖中的 y 軸比例不同眠冈。
圖 8. 加權(quán)鄰接矩陣和環(huán)狀網(wǎng)絡(luò)顯示精神分裂癥組中的連接減少(未應(yīng)用閾值,即所有邊的權(quán)重都非零)菌瘫。兩個圖中的邊和環(huán)狀網(wǎng)絡(luò)圖中的節(jié)點根據(jù)它們的權(quán)重和標(biāo)準(zhǔn)化節(jié)點度進(jìn)行著色蜗顽。每個連接(即塊)的縮放權(quán)重值表示所選連通分量中存在的邊以及在每次交叉驗證迭代中模型的預(yù)測性能。
圖 9. BrainNet Viewer 生成的 3D 大腦表面上精神分裂癥組中功能失調(diào)子網(wǎng)(權(quán)重閾值 = 0.90)的可視化(Xia 等人雨让,2013 年)雇盖。節(jié)點和邊分別根據(jù)節(jié)點的度和權(quán)重用大小和顏色表示。連接失調(diào)主要位于額顳區(qū)栖忠、視覺區(qū)和運動區(qū)以及皮層下崔挖。左半球連接失調(diào)的程度更大,表明連接失調(diào)的半球不對稱庵寞。
3.2.應(yīng)用流程 3
根據(jù)預(yù)測和實際智力分?jǐn)?shù)之間的 Pearson 相關(guān)系數(shù) r = 0.200(95%置信區(qū)間 CI:0.189–0.214)狸相,NBS-Predict用靜息狀態(tài)功能連接矩陣預(yù)測一般智力。發(fā)現(xiàn)線性回歸產(chǎn)生最高的預(yù)測性能(表 2)捐川。加權(quán)循環(huán)網(wǎng)絡(luò)和鄰接矩陣如圖 11 所示脓鹃。連接失調(diào)程度最大的子網(wǎng)絡(luò)(即權(quán)重最高為 1 的邊)包含10個功能性腦網(wǎng)絡(luò)的36個區(qū)域(65個邊,表5)属拾。
此外将谊,NBS-Predict使用更寬松的閾值0.90冷溶,從幾個功能性大腦網(wǎng)絡(luò)(68 個區(qū)域和178個邊,圖12)中識別出一個包含大量大腦區(qū)域的子網(wǎng)絡(luò)尊浓。
由大腦區(qū)域及其總度的功能網(wǎng)絡(luò)如表6所示逞频。
圖10. NBS-Predict 和其他算法(elastic net、lasso栋齿、top 5% 的特征苗胀、p-value)對從精神分裂癥患者和健康對照收集的靜息狀態(tài) fMRI 數(shù)據(jù)實現(xiàn)的平均分類準(zhǔn)確度。在NBS-Predict 和 p-value處理中瓦堵,使用 0.01 的 p-value來選擇相關(guān)邊基协。使用網(wǎng)格搜索方法優(yōu)化 NBS-Predict 超參數(shù)選擇算法中 L2 正則化的超參數(shù)。所有算法均采用 1000 次重復(fù)的 10折CV 結(jié)構(gòu)來比較算法的預(yù)測精度菇用。每個圖中描繪的誤差條代表 95% 的置信區(qū)間 (p < 0.05)澜驮。
圖 11. 加權(quán)鄰接矩陣和環(huán)形網(wǎng)絡(luò)顯示了與一般智力相關(guān)的連接(沒有應(yīng)用閾值,即所有邊的權(quán)重都非零)惋鸥。兩個圖中的邊和環(huán)形網(wǎng)絡(luò)圖中的節(jié)點根據(jù)它們的權(quán)重和標(biāo)準(zhǔn)化節(jié)點度進(jìn)行著色杂穷。每個連接(即塊)的權(quán)重值表示所選連通分量中存在的邊以及在每次交叉驗證迭代中模型的預(yù)測性能。
圖 12. BrainNet Viewer 生成的三維大腦表面上與一般智力相關(guān)的子網(wǎng)絡(luò)(權(quán)重閾值 = 0.90)的可視化卦绣。節(jié)點和邊分別根據(jù)節(jié)點的度和權(quán)重用大小和顏色表示耐量。發(fā)現(xiàn)與默認(rèn)模式、扣帶-鰓蓋任務(wù)控制滤港、顯著性廊蜒、體感、腹側(cè)注意溅漾、聽覺山叮、額頂葉任務(wù)控制、皮層下和背側(cè)注意網(wǎng)絡(luò)相關(guān)的 68 個區(qū)域之間的 178 個連接與受試者的一般智力分?jǐn)?shù)有關(guān)(r = 0.200)添履。
NBS-Predict和其他算法(CPM聘芜、elastic net、lasso缝龄、top 5% 的特征汰现、p-value)的預(yù)測性能如圖 13 所示。在沒有執(zhí)行任何超參數(shù)優(yōu)化的算法中叔壤,elastic net產(chǎn)生了最好的預(yù)測性能瞎饲,其次是lasso。沒有超參數(shù)優(yōu)化的 NBS-Predict 產(chǎn)生了與 p-value相似的預(yù)測性能炼绘,其次是 CPM 和top 5% 特征選擇方法嗅战。此外,在 CPM 中,負(fù)邊集的預(yù)測性能明顯高于正邊集驮捍。最重要的是疟呐,采用超參數(shù)優(yōu)化的NBS-Predict 的性能與沒有超參數(shù)優(yōu)化的elastic net類似。
討 論
4.1.NBS-Predict–概述
我們介紹了NBS-Predict东且,這是一種結(jié)合了傳統(tǒng) NBS 和機器學(xué)習(xí)的強大功能的新方法启具。為了證明 NBS-Predict 的性能和實用性,我們在三個場景中評估了 NBS-Predict:(i)使用兩組具有不同水平真值的仿真數(shù)據(jù)進(jìn)行基準(zhǔn)測試珊泳,(ii)使用從精神分裂癥患者和健康對照組獲得的靜息狀態(tài) fMRI 數(shù)據(jù)對精神分裂癥進(jìn)行分類鲁冯,(iii) 使用來自人類連接組計劃發(fā)布的 1200 名受試者的大樣本量的靜息態(tài) fMRI 數(shù)據(jù)預(yù)測一般智力分?jǐn)?shù)。在每種情況下色查,我們比較了 NBS-Predict 的性能與其他特征選擇算法(lasso薯演、top 5%、elastic net秧了、p-value)跨扮。在第一種和第三種情況下,還比較了NBS-Predict和CPM的性能验毡。
圖13.NBS-Predict和其他算法在 HCP 數(shù)據(jù)集上獲得的 Pearson 相關(guān)系數(shù)預(yù)測分?jǐn)?shù)好港。對于具有超參數(shù)優(yōu)化的NBS-Predict,我們優(yōu)化了 L2 正則化中的lambda 參數(shù)米罚。在 NBS-Predict、CPM 和 p-value中使用了 0.01 的 p-value丈探。所有算法都使用 500 個重復(fù)的 5 折 CV 結(jié)構(gòu)來比較算法的預(yù)測精度录择。每個圖中描繪的誤差條代表 95% 的置信區(qū)間 (p < 0.05)。
表2 在第二個和第三個應(yīng)用流程中碗降,用于分析 rs-fMRI 數(shù)據(jù)的機器學(xué)習(xí)算法的預(yù)測性能隘竭。
注:分類準(zhǔn)確度和皮爾遜相關(guān)系數(shù)分別在第二次和第三次應(yīng)用中用作性能指標(biāo)。
表3 連接減少的節(jié)點及其程度
注:應(yīng)用了0.1的權(quán)重閾值讼渊。
表4連接減少的節(jié)點及其度动看。
注意:應(yīng)用了0.9 的權(quán)重閾值。
表5 與一般智力相關(guān)的功能網(wǎng)絡(luò)及其總度爪幻。
注意:應(yīng)用了1.0 的權(quán)重閾值菱皆。*與任何特定功能網(wǎng)絡(luò)無關(guān)的大腦區(qū)域。
NBS-Predict 是一種簡單挨稿、快速和結(jié)構(gòu)化的方法仇轻,它使用連通分量和機器學(xué)習(xí)算法來識別與感興趣效應(yīng)(例如,認(rèn)知功能)相關(guān)的網(wǎng)絡(luò)模式奶甘。它對每個連接的分量執(zhí)行樣本外評估篷店,從而提供相關(guān)的樣本外預(yù)測評分。因此臭家,它允許評估模型的通用性疲陕,這對于開發(fā)基于神經(jīng)影像的生物標(biāo)志物至關(guān)重要方淤。NBS-Predict用戶友好的 GUI 不需要任何編程專業(yè)知識,使研究人員能夠輕松執(zhí)行復(fù)雜的分析和可視化結(jié)果蹄殃。應(yīng)該討論 NBS-Predict 相對于現(xiàn)有方法的優(yōu)勢携茂。第一種與 NBS-Predict直接比較的方法是NBS。關(guān)鍵是窃爷,雖然 NBS 專注于群體統(tǒng)計推斷邑蒋,但 NBS-Predict 旨在通過使用機器學(xué)習(xí)方法對已識別的超閾值分量進(jìn)行樣本外評估,這些分量與個人層面的預(yù)測相關(guān)按厘。這不僅可以讓我們更深入地了解模型的通用性医吊,還可以更深入地了解模型在描述觀察到的數(shù)據(jù)方面的性能。NBS-Predict 比 NBS 提供了更多關(guān)于單個邊對模型貢獻(xiàn)的信息(即逮京,它提供一個加權(quán)網(wǎng)絡(luò)作為輸出卿堂;有關(guān)詳細(xì)信息,請參閱方法部分)懒棉。方便研究人員在子網(wǎng)可視化過程中確定權(quán)重閾值草描。另一種類似的方法是基于連接組的預(yù)測建模。與 NBS-Predict 相比策严,CPM 需要編程經(jīng)驗穗慕,并且只能應(yīng)用于結(jié)果變量連續(xù)的問題。與 CPM 相比妻导,NBS-Predict 能預(yù)測連續(xù)和離散目標(biāo)逛绵,因為它在超閾值邊選擇中使用通用一般線性模型,結(jié)合回歸和分類機器學(xué)習(xí)算法倔韭,可以直接應(yīng)用于兩種數(shù)據(jù)類型术浪。此外,它僅根據(jù)與結(jié)果變量(即行為數(shù)據(jù))的線性關(guān)聯(lián)來選擇與預(yù)測模型相關(guān)的單個邊寿酌。相比之下胰苏,我們設(shè)計了 NBS-Predict 來識別與結(jié)果變量相關(guān)的整個子網(wǎng)絡(luò),因為有人提出認(rèn)知功能源于大腦中大規(guī)模網(wǎng)絡(luò)的激活醇疼。此外硕并,與一般機器學(xué)習(xí)方法不同,NBS-Predict 通過將基于過濾特征選擇方法(例如秧荆,t 檢驗鲤孵、F 檢驗)與連通分量的圖論相結(jié)合,獲得相對更快的計算速度并且需要較少的特征選擇知識辰如。最重要的是普监,通過 NBS-Predict 獲得的網(wǎng)絡(luò)具有直接的解釋。邊權(quán)重清楚地表明相應(yīng)邊對整個模型的貢獻(xiàn)和魯棒性,這可能表明生物標(biāo)志物對基于神經(jīng)影像的預(yù)測的重要性凯正。使用一般機器學(xué)習(xí)算法毙玻,權(quán)重通常不直觀,或者無法獲得系數(shù)廊散。
4.2.NBS預(yù)測——對仿真數(shù)據(jù)的應(yīng)用在第一個應(yīng)用流程中桑滩,我們使用兩組仿真數(shù)據(jù)評估了 NBS-Predict 在分類和回歸問題中識別相關(guān)連通分量方面的性能。NBS-Predict在第一組仿真數(shù)據(jù)上分類性能的評估表明允睹,NBS-Predict相對于現(xiàn)有方法提供了改進(jìn)的統(tǒng)計效力运准,尤其是在低 CNR情況中。NBS-Predict 在低 CNR 條件下優(yōu)于現(xiàn)有方法的優(yōu)勢至關(guān)重要缭受,因為在神經(jīng)影像學(xué)研究中效應(yīng)大小較小胁澳。這種優(yōu)勢隨著 CNR 的增加而下降,這導(dǎo)致所有特征選擇算法在高 CNR 條件下的性能相當(dāng)米者。在第二組仿真數(shù)據(jù)(即回歸)上韭畸,NBS-Predict 在識別具有真值邊方面表現(xiàn)出不錯的性能,這可能與觀察次數(shù)成比例地增加蔓搞。在這些模擬中胰丁,因為研究對象數(shù)量有限,受試者數(shù)量較多喂分,我們僅使用 250 個觀察值來預(yù)測基于 1000 個特征的結(jié)果锦庸。重要的是,在第二組仿真數(shù)據(jù)中蒲祈,NBS-Predict 在所有噪聲條件下以低誤報率實現(xiàn)了比其他所有算法更高的真陽性率甘萧。然而,隨著 FPR 的增加讳嘱,這種預(yù)測能力的增益會下降。應(yīng)該注意的是酿愧,這種性能可能會受到多種網(wǎng)絡(luò)屬性的影響沥潭,例如大小和密度。在第一組和第二組仿真數(shù)據(jù)中嬉挡,elastic net在大多數(shù)情況下钝鸽,預(yù)測結(jié)果變量(即目標(biāo))明顯優(yōu)于NBS-Predict和其他算法,表明elastic net在預(yù)測精度方面優(yōu)于其他算法庞钢。然而拔恰,這種優(yōu)勢并非所有數(shù)據(jù)集都有表現(xiàn)(見圖10)。此外基括,這一優(yōu)勢并未充分反映其在識別相關(guān)特征(即具有真值的特征)方面的性能颜懊。例如,在第二組仿真數(shù)據(jù)上,盡管在預(yù)測精度方面發(fā)現(xiàn)elastic net是性能最好的算法河爹,但在識別相關(guān)特征方面匠璧,NBS Predict優(yōu)于elastic net。然而咸这,考慮到其性能夷恍,在實現(xiàn)最大預(yù)測精度是主要目標(biāo)的情況下,elastic net是NBS-Predict的一個很好的替代方案媳维。在第二組仿真數(shù)據(jù)上酿雪,使用負(fù)邊集的CPM是所有噪聲條件下性能最低的算法。然而侄刽,這些結(jié)果是預(yù)期的指黎,可以忽略不計,因為只有少數(shù)具有基本真值的邊可能與結(jié)果變量負(fù)相關(guān)唠梨,因此可能不足以做出預(yù)測袋励。因此,在更密集的大腦網(wǎng)絡(luò)中不會出現(xiàn)負(fù)邊和正邊之間預(yù)測性能的差距巨大情況(見圖13)当叭。關(guān)于計算時間茬故,除了elastic net之外,使用 NBS-Predict 工具箱中函數(shù)的算法(NBS-Predict蚁鳖、lasso磺芭、top 5% 和 p-value)以類似的速度執(zhí)行。值得注意的是醉箕,elastic net是分類任務(wù)(即第一組仿真網(wǎng)絡(luò))中最快的算法钾腺,但在回歸任務(wù)(即第二組仿真網(wǎng)絡(luò))中是最慢的算法。這主要是因為我們使用了 GLMNET 庫來擬合elastic net模型讥裤,而其他機器學(xué)習(xí)算法則來自 MATLAB 開發(fā)的 Statistics and Machine Learning Toolbox放棒。我們還發(fā)現(xiàn),除了Elastic Net之外己英,CPM 的執(zhí)行速度略慢于其他算法间螟。然而辜贵,應(yīng)該注意的是抄课,CPM 是一個協(xié)議,這意味著它需要內(nèi)部實施扫皱。因此治拿,我們認(rèn)為更優(yōu)化的 CPM 執(zhí)行速度將與 NBS-Predict 類似摩泪。在兩組仿真數(shù)據(jù)上,NBS-Predict 和其他算法使用低權(quán)重閾值(即大約 0.2-0.3)劫谅,在合理的假陽性率下獲得了良好的真陽性率见坑。值得注意的是嚷掠,我們使用了相對較小的無標(biāo)度網(wǎng)絡(luò)(即,僅包含 1000 條邊的 100 × 100 網(wǎng)絡(luò))鳄梅,因此叠国,在密集網(wǎng)絡(luò)中可視化具有可能影響的子網(wǎng)絡(luò)所需的權(quán)重閾值可能更高(例如,在應(yīng)用流程 2 和 3 中分析的網(wǎng)絡(luò))戴尸。還證明 CNR 和噪聲水平可以確定在低 FPR 下獲得具有良好 TPR 的子網(wǎng)所需的權(quán)重閾值(見圖 3 和圖 5)粟焊。因此,在定義權(quán)重閾值以可視化子網(wǎng)時孙蒙,應(yīng)考慮網(wǎng)絡(luò)的拓?fù)浜痛笮∠钐摹?shù)據(jù)中的信噪比。重要的是挎峦,應(yīng)該指出香追,NBS-Predict 僅在相關(guān)邊形成網(wǎng)絡(luò)時才提供強大的工具,因為它在特征選擇算法中利用了連通分量的概念坦胶。如附錄 5-10 所示透典,NBS-Predict 的性能在識別相關(guān)邊和目標(biāo)預(yù)測的兩組仿真數(shù)據(jù)(包括與地面實況的非互連邊緣)方面的性能顯著下降。因此顿苇,應(yīng)該注意的是峭咒,如果相關(guān)邊(或生物標(biāo)志物)沒有形成任何連通分量,則NBS-Predict是無效的纪岁。在這種情況下凑队,我們建議通過權(quán)衡模型的可解釋性和最大預(yù)測性能,選擇使用elastic net或CPM幔翰。4.3.NBS-Predict–應(yīng)用于靜息態(tài) fMRI 數(shù)據(jù)
在使用 NBS-Predict 的第二個應(yīng)用中漩氨,我們使用來自健康對照和精神分裂癥患者的 rs-fMRI 數(shù)據(jù)研究了精神分裂癥的生物標(biāo)志物。NBS-Predict 在精神分裂癥患者組中發(fā)現(xiàn)了一個連接失調(diào)的子網(wǎng)絡(luò)遗增,該子網(wǎng)絡(luò)包括位于額葉叫惊、頂葉、枕葉和顳區(qū)以及皮層下的大腦區(qū)域做修。我們的發(fā)現(xiàn)幾乎重復(fù)霍狰。唯一的不同之處在于,我們的研究中發(fā)現(xiàn)了一個由28個大腦區(qū)域之間41個連接減少的連接失調(diào)子網(wǎng)絡(luò)組成缓待,而Zalesky等人(2010)總共確定了 29 個大腦區(qū)域之間40個連接減少的子網(wǎng)絡(luò)蚓耽。Zalesky等人發(fā)現(xiàn)了右側(cè)顳上回(渠牲,但在我們的研究中未發(fā)現(xiàn)旋炒。然而,他們還發(fā)現(xiàn)該區(qū)域的節(jié)點度為1(即签杈,僅識別出一個減少的連接)瘫镇。因此鼎兽,我們可以假設(shè)該區(qū)域的連接失調(diào)程度小得無法區(qū)分。在應(yīng)用最保守的權(quán)重閾值 1 后铣除,左側(cè) Heschl 回和左側(cè)輔助運動區(qū) (SMA) 表現(xiàn)出最大程度的連接失調(diào)谚咬。這些發(fā)現(xiàn)與先前的發(fā)現(xiàn)相呼應(yīng),即 Heschl 回和 SMA是精神分裂癥中與幻聽和的運動癥狀相關(guān)的主要區(qū)域尚粘。在分類性能方面择卦,NBS-Predict 的性能優(yōu)于除 p-value之外的所有其他算法,后者產(chǎn)生了相同的準(zhǔn)確性郎嫁。
在應(yīng)用三中秉继,我們使用來自人類連接組計劃 1200 名受試者發(fā)布的 rs-fMRI 數(shù)據(jù)研究了一般智力的神經(jīng)相關(guān)性。由與多個功能網(wǎng)絡(luò)相關(guān)的大腦區(qū)域組成的子網(wǎng)絡(luò)與受試者的一般智力分?jǐn)?shù)呈正相關(guān)泽铛。相關(guān)性的幅度比之前的研究(Dubois et al., 2018, 2017 )中顯示的要小尚辑,這可能是因為之前的研究預(yù)測了受試者的流體智力而不是一般智力得分。另一個原因可能是在之前的研究中(Shen 等盔腔,2013)用 268 節(jié)點的全腦圖譜分割大腦圖像杠茬,而我們使用的是 264 節(jié)點的基于功能的圖譜(Power 等,2011)弛随。正如之前 Dadi 等人所討論的那樣瓢喉。大腦分割方法的選擇可能會影響分類性能。至關(guān)重要的是撵幽,我們執(zhí)行了一種交叉驗證的去混淆技術(shù)灯荧,這可能會更好地控制可能的混淆,從而可能導(dǎo)致較低的預(yù)測性能盐杂。關(guān)于與一般智力相關(guān)的大腦區(qū)域逗载,我們的發(fā)現(xiàn)與Hearne 等人的文獻(xiàn)一致,表明智力的神經(jīng)基礎(chǔ)以大腦中多個大腦區(qū)域之間的連接為特征链烈。在預(yù)測性能方面厉斟,雖然超參數(shù)優(yōu)化的 NBS-Predict 表現(xiàn)與elastic net相似,但elastic net在沒有超參數(shù)優(yōu)化的算法中表現(xiàn)最好强衡。這意味著擦秽,在這個特定的數(shù)據(jù)集上,elastic net中使用的兩種正則化方法(L1 和 L2)的混合比 CPM漩勤、NBS-Predict感挥、前 5 名% 的特征、p-value以及l(fā)asso中使用的 L1 正則化中使用的基于過濾器的特征選擇方法更好越败。然而触幼,如附錄 13-14 所示,盡管我們對激活模式進(jìn)行了縮放(即究飞,我們校正了從elastic net中得出的邊權(quán)重)以具有跨算法的共同尺度置谦,但原始激活模式很淺堂鲤,這可能是次優(yōu)的。已經(jīng)討論過激活模式的可靠性取決于機器學(xué)習(xí)模型的性能媒峡。也就是說瘟栖,當(dāng)機器學(xué)習(xí)模型的性能較低時(如在應(yīng)用 3 中),必須謹(jǐn)慎解釋激活模式谅阿,因為次優(yōu)權(quán)重導(dǎo)致次優(yōu)激活模式(參見 Haufe 等人半哟,2014 年供進(jìn)一步討論)。因此签餐,盡管elastic net在這個特定數(shù)據(jù)集上的表現(xiàn)優(yōu)于 NBS-Predict镜沽,但對相應(yīng)加權(quán)網(wǎng)絡(luò)的解釋可能并不完全直接。
4.4.NBS-Predict–局限性NBS-Predict方法有幾個必須解決的局限性贱田。最明顯的局限是在超閾值邊選擇和可視化中需要閾值缅茉。在超閾值邊選擇中,p-value決定了在每個交叉驗證折中選擇的聯(lián)通分量的大小男摧。由于一般線性模型用于超閾值邊選擇蔬墩,我們建議研究人員遵循與單變量統(tǒng)計方法中使用的類似 alpha 值選擇策略,例如如果邊總數(shù)非常高耗拓,則使用相對較低的 alpha 值(例如拇颅,0.001)。在可視化方面乔询,邊權(quán)重閾值用于可視化包含用于預(yù)測的相關(guān)邊的子網(wǎng)絡(luò)樟插。非閾值加權(quán)網(wǎng)絡(luò)是 NBS-Predict 的結(jié)果,但研究人員可以對這個加權(quán)網(wǎng)絡(luò)設(shè)置閾值竿刁,以提取包含最有可能傳遞觀察數(shù)據(jù)下重要潛在信息的邊緣的子網(wǎng)絡(luò)黄锤。這對于更好地可視化和解釋結(jié)果很重要。與 NBS 一樣食拜,在 NBS-Predict 中沒有關(guān)于如何選擇子網(wǎng)的明確指南鸵熟。盡管如此,使用加權(quán)網(wǎng)絡(luò)负甸,NBS-Predict 提供了比 NBS 更好的設(shè)置閾值的方法流强,其中閾值在分析之前定義。這是因為加權(quán)網(wǎng)絡(luò)允許在定義閾值之前直觀地檢查邊緣權(quán)重的分布呻待。用于可視化子網(wǎng)的權(quán)重閾值的解釋也很簡單打月,因為 NBS-Predict 中的權(quán)重閾值是邊對一般預(yù)測性能的貢獻(xiàn)的分界點。因此蚕捉,選擇子網(wǎng)絡(luò)的一種策略是將權(quán)重閾值設(shè)置為1奏篙,這會導(dǎo)致子網(wǎng)絡(luò)包含所有 CV 折中選擇的邊。然而鱼冀,更好的策略是選擇一個不太保守但仍然很高的權(quán)重閾值(例如报破,0.9-0.8),因為 1 的權(quán)重閾值可能過于嚴(yán)格千绪。此外充易,如果要分析稀疏的大腦網(wǎng)絡(luò),使用較低的閾值將是選擇子網(wǎng)絡(luò)的更明智的策略荸型,因為根據(jù)第一個應(yīng)用流程的結(jié)果盹靴,該方法已得到支持(見圖 3 和圖 5)。我們還強烈建議研究人員報告加權(quán)網(wǎng)絡(luò)和閾值子網(wǎng)絡(luò)瑞妇,讓讀者了解整個大腦網(wǎng)絡(luò)的結(jié)構(gòu)和邊權(quán)重的分布稿静。必須明確的是,所選權(quán)重閾值不會影響NBS-Predict在給定數(shù)據(jù)上的總體預(yù)測性能辕狰,因為它是作為所選連通分量在外循環(huán)上的預(yù)測性能的平均值改备。子網(wǎng)大小根據(jù)所使用的權(quán)重閾值而變化,從而導(dǎo)致所選子網(wǎng)的預(yù)測性能發(fā)生變化(參見附錄 3蔓倍、4)悬钳。我們強烈建議用戶避免使用結(jié)果子網(wǎng)絡(luò)的預(yù)測性能作為選擇權(quán)重閾值的策略,因為這可能導(dǎo)致過擬合偶翅。
另一個局限是 NBS-Predict 與 NBS 一樣默勾,可以識別最大連通分量中存在的邊。然而聚谁,這可能會忽略較小連通分量中的邊或不任意形成任何連通分量的邊的可能影響母剥,從而導(dǎo)致較低的預(yù)測性能。然而形导,包含更小的連通分量會導(dǎo)致更復(fù)雜的模型环疼,從而導(dǎo)致過度擬合。NBS-Predict方法的另一個限制是朵耕,邊權(quán)重的分布直接受交叉驗證結(jié)構(gòu)中使用的折次數(shù)和重復(fù)次數(shù)的影響(詳見“加權(quán)矩陣”部分)秦爆。CV 折次數(shù)越多,邊權(quán)重分布越細(xì)憔披,而結(jié)果越少等限,分布越粗。例如芬膝,如果使用 10 次重復(fù)的 5 折 CV 結(jié)構(gòu)望门,則50個不同的權(quán)重值分布邊權(quán)重。邊權(quán)重分布與折次數(shù)的這種依賴性在分析高維數(shù)據(jù)時更為重要锰霜。例如筹误,少CV 折或重復(fù)(例如,5 次重復(fù) 5 折CV)使用少量不同權(quán)重生成權(quán)重分布癣缅。因此厨剪,大量的邊可以用相同的權(quán)重值表示哄酝,這可能會阻礙研究人員清楚地解釋邊對整體預(yù)測性能的貢獻(xiàn)。NBS-Predict 方法的這一缺陷的一種可能解決方案是使用大量重復(fù)祷膳。
結(jié) 論
我們介紹了NBS預(yù)測陶衅,這是基于網(wǎng)絡(luò)統(tǒng)計的預(yù)測擴展。它將機器學(xué)習(xí)算法與交叉驗證結(jié)構(gòu)中的連通分量相結(jié)合直晨,以實現(xiàn)一種快速方法來識別具有高泛化性的基于神經(jīng)影像的生物標(biāo)志物搀军。NBS-Predict 還帶有一個用戶友好的GUI,不需要任何編程經(jīng)驗勇皇。它對兩組仿真數(shù)據(jù)的預(yù)測性能顯示出良好的統(tǒng)計效力罩句。在大多數(shù)情況下,與其他算法相比敛摘,NBS-Predict以適當(dāng)?shù)恼`報率提供了相似或更大的效力门烂。在預(yù)測性能方面,NBS-Predict 的性能與其他算法相當(dāng)或更好兄淫。我們展示了NBS-Predict在兩組連接組數(shù)據(jù)上的實際效用:(i)從 15 名健康對照者和12名精神分裂癥患者獲取的靜息態(tài)fMRI數(shù)據(jù)诅福,以識別精神分裂癥患者大腦連接減少的情況;(ii) 來自人類連接組計劃發(fā)布的1200名受試者的rs-fMRI數(shù)據(jù)拖叙,用于識別與一般智力評分相關(guān)的大腦網(wǎng)絡(luò)氓润。NBS-Predict在精神分裂癥患者組中確定了一個子網(wǎng)絡(luò),該子網(wǎng)絡(luò)由28個大腦區(qū)域組成薯鳍,這些區(qū)域在大范圍的皮質(zhì)區(qū)域以及皮質(zhì)下層中的連接減少咖气,這些皮質(zhì)區(qū)域也得到了精神分裂癥白質(zhì)連接體研究結(jié)果的證實。對智力神經(jīng)相關(guān)性的分析表明挖滤,一般智力評分與由與多個功能網(wǎng)絡(luò)(主要是聽覺崩溪、扣帶-鰓蓋任務(wù)控制、默認(rèn)模式斩松、顯著性和軀體運動感覺)相關(guān)聯(lián)的大腦區(qū)域組成的子網(wǎng)絡(luò)之間存在正相關(guān)伶唯。