一片小鼠淋巴細胞樣的圖像: a是原始數(shù)據(jù),b是相應的手動分段,c是具有100層的MS-D網絡的輸出。
美國能源部勞倫斯伯克利國家實驗室(伯克利實驗室)的數(shù)學家們開發(fā)了一種新的機器學習方法出爹,旨在實驗成像數(shù)據(jù)。這種新方法不是依靠典型機器學習方法所使用的數(shù)十或數(shù)十萬個圖像缎除,而是“更快地學習”严就,并且極少所需的圖像。
伯克利實驗室能源研究應用高級數(shù)學中心(CAMERA)的Dani?lPelt和James Sethian通過開發(fā)他們稱之為“混合尺度密集卷積神經網絡(MS-D)”的方法器罐,將平常的機器學習視角轉變?yōu)轭^腦梢为,比傳統(tǒng)方法少得多的參數(shù),快速收斂,并且能夠從一個非常小的訓練集“學習”铸董。他們的方法已被用于從細胞中提取生物結構圖像,并將提供一個重要的新計算工具來分析廣泛的研究領域的數(shù)據(jù)祟印。
當實驗設施以更高的速度生成更高分辨率的圖像時,科學家們就很難對得到的數(shù)據(jù)進行管理和分析袒炉,而這些數(shù)據(jù)通常是手工完成的旁理。2014年,Sethian在伯克利實驗室建立了CAMERA我磁,作為一個綜合性的跨學科中心孽文,開發(fā)和提供基本的新數(shù)學,以利用美國能源部科學辦公室的用戶設施的實驗調查夺艰。CAMERA是實驗室計算研究部門的一部分芋哭。
“在許多科學應用中,需要大量的體力勞動來注釋和標記圖像——需要幾周的時間才能制作出幾個精心描繪的圖像郁副,”Sethian說减牺,他也是加州大學伯克利分校的數(shù)學教授〈婊眩“我們的目標是開發(fā)一種從非常小的數(shù)據(jù)集學習的技術拔疚。”
該算法的信息于2017年12月26日在《美國國家科學院院刊》上發(fā)表既荚。
“這一突破源自于認識到在不同圖像尺度下通常的縮放和放大拍攝功能可以被處理多個尺度的數(shù)學卷積所取代稚失,”Pelt說,他也是Centrum計算成像組的成員恰聘。Wiskunde&Informatica句各,荷蘭數(shù)學和計算機科學國家研究機構。
為了使該算法能夠被廣泛的研究人員所接受晴叨,由Olivia Jain和Simon Mo領導的伯克利團隊建立了一個門戶網站“分段標記圖像數(shù)據(jù)引擎(SlideCAM)”凿宾,作為美國能源部實驗設施的CAMERA工具套件的一部分。
使用1024個投影(a)和120個投影(b)重建的纖維增強微型復合材料的斷層圖像兼蕊。在(c)中初厚,顯示了具有圖像(b)作為輸入的MS-D網絡的輸出。在每幅圖像的右下角放大顯示由紅色方塊指示的小區(qū)域孙技。
一個有前途的應用是理解生物細胞的內部結構产禾,以及Pelt和Sethian的MS-D方法只需要來自7個細胞的數(shù)據(jù)來確定細胞結構的項目。
“在我們的實驗室绪杏,我們正在研究細胞結構和形態(tài)如何影響或控制細胞的行為∨ι埽”美國國家x射線斷層掃描中心主任蕾久、加州大學舊金山分校醫(yī)學院的教授Carolyn Larabell說:“我們花了大量的時間來手工分割細胞,以提取結構拌夏,并識別出健康與患病細胞之間的差異僧著÷囊颍”“這種新方法有可能從根本上改變我們理解疾病的能力,并且是我們新的Chan-Zuckerberg贊助的建立Human Cell Atlas項目的關鍵工具盹愚,該項目是一項全球合作項目栅迄,用于繪制健康人體中所有細胞身體〗耘拢”
從更少的數(shù)據(jù)中獲取更多的科學
圖像無處不在毅舆。智能手機和傳感器已經產生了一批珍貴的圖片,其中很多都帶有相關的信息愈腾。使用這個交叉參考圖像的龐大數(shù)據(jù)庫憋活,卷積神經網絡和其他機器學習方法已經徹底改變了我們快速識別那些看起來像之前看到和被分類的自然圖像的能力。
這些方法通過調整一組驚人的隱藏內部參數(shù)來“學習”虱黄,這些隱藏的內部參數(shù)由數(shù)以百萬計的被標記的圖像引導悦即,并且需要大量的超級計算機時間。但是如果你沒有那么多的標記圖像呢?在許多領域橱乱,這樣的數(shù)據(jù)庫是無法實現(xiàn)的奢侈品辜梳。生物學家記錄下了細胞的圖像,并煞費苦心地用手勾勒出邊界和結構:一個人花數(shù)周時間想出一個完全三維的圖像是很正常的泳叠。材料科學家利用斷層重建技術來觀察巖石和材料作瞄,然后卷起他們的袖子來標記不同的區(qū)域,用手識別裂縫和空隙析二。不同但重要的結構之間的對比往往非常小粉洼,數(shù)據(jù)中的“噪音”可以掩蓋特征,混淆了最佳算法叶摄。
這些珍貴的手工制作的圖像在傳統(tǒng)的機器學習方法中還遠遠不夠属韧。為了迎接這一挑戰(zhàn),CAMERA的數(shù)學家們從非常有限的數(shù)據(jù)中攻克了機器學習的問題蛤吓。他們試圖用更少的方法做“更多”宵喂,他們的目標是找出如何建立一套高效的數(shù)學“運算符”,這樣可以大大減少參數(shù)的數(shù)量会傲。這些數(shù)學運算符可能會自然地結合關鍵約束來幫助識別锅棕,例如,包括對科學合理形狀和模式的要求淌山。
左圖:具有縮放操作的常見DCNN體系結構的示意圖; 向下箭頭表示縮小操作裸燎,向上箭頭表示放大操作,而虛線箭頭表示跳過連接泼疑。右圖:w = 2和d = 3的MS-D網絡的示意圖; 彩色線代表3x3擴張卷積德绿,每種顏色對應不同的膨脹:所有特征圖用于最終輸出計算。
混合尺度密集卷積神經網絡
機器學習在成像問題上的許多應用都使用深度卷積神經網絡(DCNN),其中輸入圖像和中間圖像在大量的連續(xù)層中進行卷積移稳,使得網絡能夠學習高度非線性的特征蕴纳。為了在困難的圖像處理問題上獲得準確的結果,DCNN通常依賴于額外的操作和連接的組合个粱,例如古毛,縮小和放大操作以捕獲各種圖像尺度的特征。為了訓練更深層和更強大的網絡都许,通常需要額外的圖層類型和連接稻薇。最后,DCNN通常使用大量的中間圖像和可訓練的參數(shù)(通常超過1億)梭稚,以達到解決難題的結果颖低。
取而代之的是,新的“混合比例密集”網絡結構避免了許多這樣的復雜性弧烤,并將擴張的卷積計算為縮放操作的替代忱屑,以捕獲各種空間范圍的特征,在單個層中使用多個尺度暇昂,并將所有中間圖像緊密地連接起來莺戒。新的算法獲得精確的結果,中間的圖像和參數(shù)很少急波,同時消除了需要調整超參數(shù)和附加的圖層或連接以支持訓練从铲。
從低分辨率數(shù)據(jù)獲取高分辨率科學
另一個挑戰(zhàn)是從低分辨率輸入產生高分辨率圖像。任何試圖放大一張小照片的人都會發(fā)現(xiàn)澄暮,隨著它越來越大名段,它變得越來越糟,這聽起來幾乎是不可能的泣懊。但是用混合密度密集網絡處理的一小部分訓練圖像可以提供真正的進展伸辟。舉個例子,想象一下馍刮,試著去對纖維增強的微型復合材料的層析重建信夫。在本文描述的實驗中,使用1024個獲得的X射線投影來重建圖像以獲得具有相對低噪聲量的圖像卡啰。然后通過使用128個投影重建來獲得同一對象的噪聲圖像静稻。訓練輸入是嘈雜的圖像,相應的無噪聲圖像用作訓練期間的目標輸出匈辱。經過訓練的網絡能夠有效地獲取噪聲輸入數(shù)據(jù)并重構更高分辨率的圖像振湾。
新應用程序
Pelt和Sethian正在將他們的方法應用到許多新領域,例如快速實時分析來自同步加速器光源的圖像以及生物重建中的重建問題亡脸,例如細胞和腦圖押搪。
Pelt說:“這些新方法非常令人興奮佛南,因為它們將使機器學習的應用范圍變得比目前可能出現(xiàn)的多種成像問題多得多,”“通過減少所需訓練圖像的數(shù)量嵌言,增加可以處理的圖像的大小,新的體系結構可以用來回答許多研究領域的重要問題及穗〈蒈睿”
本文為編譯文章,轉載請注明出處埂陆。
來源:atyun_com
來源網址:http://www.atyun.com/16621_極簡主義機器學習算法可從極小數(shù)據(jù)中分析圖&=6.html