2019
- 一月 - 3D 姿勢(shì)估計(jì)
姿勢(shì)估計(jì)器將視頻作為輸入唆樊,并輸出與視頻中存在的人類個(gè)體的姿勢(shì)相對(duì)應(yīng)的圖形。
創(chuàng)建可靠且實(shí)時(shí)的 3D 姿勢(shì)估計(jì)器的當(dāng)前困難包括這樣的事實(shí):幾乎沒(méi)有訓(xùn)練數(shù)據(jù),以及必須考慮遮擋的事實(shí)。例如,如果特定身體部位被阻擋而不能看到河质,則姿勢(shì)估計(jì)器仍必須能夠從身體其余部分的位置推斷出其位置。
該模型優(yōu)于所有現(xiàn)有模型申鱼,因?yàn)樗鼊?chuàng)建姿勢(shì)的 2D 和 3D 表示愤诱。它使用初始 2D 姿態(tài)估計(jì),然后利用將該 2D 估計(jì)轉(zhuǎn)換為 3D 形式的神經(jīng)網(wǎng)絡(luò)捐友。然后,它使用 3D 到 2D 神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)將姿勢(shì)轉(zhuǎn)換回 2D 形式溃槐,這有助于通過(guò)自我監(jiān)督校正機(jī)制改進(jìn)中間 3D 姿勢(shì)預(yù)測(cè)匣砖,該機(jī)制可以檢測(cè)第一個(gè) 2D 到 3D 的準(zhǔn)確度神經(jīng)網(wǎng)絡(luò)。
網(wǎng)絡(luò)允許在大約 50 毫秒內(nèi)獲得姿勢(shì)估計(jì)昏滴,其接近每秒 20 幀猴鲫。這接近實(shí)時(shí),適用于姿勢(shì)估計(jì)的許多應(yīng)用
- 二月 - SC-FEGAN:面部編輯 GAN
該 AI 能夠從一組可控模式生成逼真的圖像谣殊。它建立在該領(lǐng)域以前的幾篇論文的基礎(chǔ)上 - 第一篇是從稀疏描述中生成圖像的論文(比如一個(gè)判決書(shū))拂共,第二篇是允許定制圖像上的面部特征的論文(例如合并兩個(gè)不同的面孔)。
這種技術(shù)允許我們編輯更具體的因素 - 例如姻几,在某人的臉上微笑或刪除個(gè)人的太陽(yáng)鏡宜狐。顏色也可以改變 - 例如势告,可以操縱一只眼睛的顏色。它非掣Ш悖快咱台,使用 512 x 512 圖像創(chuàng)建這些圖像只需 50 毫秒。
它在電影制作的編輯行業(yè)中有應(yīng)用俭驮,但也可以被尋求對(duì)其照片進(jìn)行簡(jiǎn)單編輯的新穎消費(fèi)者使用回溺。雖然目前沒(méi)有可用的網(wǎng)絡(luò)應(yīng)用程序,但它確實(shí)公開(kāi)了其源代碼混萝。
谷歌的 PlaNet AI 旨在學(xué)習(xí)如何規(guī)劃必須采取的一系列步驟遗遵,以執(zhí)行物理目標(biāo) - 執(zhí)行,桿平衡或像人一樣行走逸嘀。 AI 必須以與人類相同的方式學(xué)習(xí) - 通過(guò)查看這些圖像的像素(這需要對(duì)上下文的視覺(jué)理解)车要。
AI 使用稀疏獎(jiǎng)勵(lì)方法,這意味著它幾乎無(wú)法獲得有關(guān)這些任務(wù)的性能的反饋厘熟。然而屯蹦,這與經(jīng)典的強(qiáng)化學(xué)習(xí)方法之間的關(guān)鍵區(qū)別在于,這種 AI 使用模型進(jìn)行學(xué)習(xí)绳姨。這意味著它不是從頭開(kāi)始學(xué)習(xí)每一項(xiàng)新任務(wù)登澜,而是利用它從以前的活動(dòng)中獲得的基本理解(例如引力的性質(zhì)),并將其應(yīng)用于未來(lái)的任務(wù)飘庄。因此脑蠕,它在學(xué)習(xí)游戲時(shí)有一個(gè)良好的開(kāi)端,使其效率通常比從頭開(kāi)始學(xué)習(xí)的技術(shù)高 50 倍跪削。
它在大多數(shù)任務(wù)中明顯優(yōu)于其他最先進(jìn)的 AI 系統(tǒng)谴仙,例如獵豹跑步或人行走。該代理不需要對(duì)每項(xiàng)活動(dòng)進(jìn)行單獨(dú)培訓(xùn)碾盐,因?yàn)樗鼤?huì)混合其培訓(xùn)晃跺。此外,它可以僅使用 5 幀參考特定活動(dòng)來(lái)學(xué)習(xí)它毫玖,相當(dāng)于大約五分之一秒的素材掀虎。然后,它可以學(xué)習(xí)如何在更長(zhǎng)的時(shí)間內(nèi)繼續(xù)此活動(dòng)付枫。
- 三月 - 人類可以破譯對(duì)抗性圖像
雖然最近的卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)在圖像檢測(cè)問(wèn)題上已超過(guò)人類表現(xiàn)烹玉,但問(wèn)題確實(shí)存在 - 只需修改圖像中的一個(gè)或兩個(gè)像素就可以使系統(tǒng)將圖像分類為極為不同的東西。例如阐滩,重新配置一兩個(gè)像素就是計(jì)算機(jī)將蘋(píng)果分類為汽車(chē)所需的全部?jī)?nèi)容二打。這種 “愚弄” 圖像識(shí)別系統(tǒng)的能力被批評(píng)為這種系統(tǒng)無(wú)法以與人類相同的方式解釋圖像的跡象,盡管最近的一篇論文表明情況可能并非如此掂榔。
在一篇論文中继效,一對(duì)認(rèn)知心理學(xué)家展示了一組超過(guò) 1800 個(gè)主題的圖像症杏,這些圖像已經(jīng)欺騙了計(jì)算機(jī),將其分類為錯(cuò)誤的標(biāo)簽莲趣。他們問(wèn)人們計(jì)算機(jī)預(yù)測(cè)對(duì)象的兩種選擇中的哪一種 - 一種選擇是計(jì)算機(jī)的真實(shí)結(jié)論鸳慈,另一種是隨機(jī)答案。受試者在 75%的時(shí)間內(nèi)選擇與計(jì)算機(jī)相同的答案喧伞,其中 98%的人傾向于像計(jì)算機(jī)那樣回答走芋。
接下來(lái),研究人員讓受試者在系統(tǒng)的答案和對(duì)猜測(cè)錯(cuò)誤的圖像的下一個(gè)最佳猜測(cè)之間做出選擇潘鲫。再次翁逞,受試者再次驗(yàn)證了計(jì)算機(jī)的選擇 - 91%的受試者同意系統(tǒng)的決定。
因此溉仑,該研究提供了一定程度的證據(jù)表明卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的明顯缺陷可能沒(méi)有許多人想象的那么糟糕挖函。它提供了一個(gè)新的視角,以及一個(gè)可以探索的新實(shí)驗(yàn)范式浊竟。
2018
- 四月 - ProGanSR
為了實(shí)現(xiàn)超分辨率怨喘,允許將低分辨率圖像轉(zhuǎn)換為更高分辨率的圖像,本文建議通過(guò)漸進(jìn)方法改善圖像分辨率振定。它需要幾個(gè)中間步驟必怜,其中產(chǎn)生的圖像略好于前一個(gè),稱為 “課程學(xué)習(xí)”后频。
本文使用的是 GAN梳庆,而不僅僅是 CNN。與最先進(jìn)的模型相比卑惜,使用本文提出的方法生成的圖像精度略低膏执,但速度是其 5 倍。
機(jī)器學(xué)習(xí)模型的最終目標(biāo)是在新的更米,看不見(jiàn)的實(shí)例上準(zhǔn)確地預(yù)測(cè)輸出。因此毫痕,在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)壳快,測(cè)試數(shù)據(jù)不參與創(chuàng)建模型的過(guò)程至關(guān)重要,因?yàn)檫@會(huì)給測(cè)試集帶來(lái)偏差镇草。不幸的是,我們通常只能從同一個(gè)發(fā)行版訪問(wèn)新數(shù)據(jù)瘤旨,導(dǎo)致許多研究人員使用測(cè)試集代替驗(yàn)證集梯啤。這允許根據(jù)所選測(cè)試集的分布來(lái)優(yōu)化諸如學(xué)習(xí)速率的超參數(shù)。
該研究論文提出了一個(gè)新的測(cè)試集存哲,其中包含大約 2000 個(gè)實(shí)例因宇,這些實(shí)例與 CIFAR-10 數(shù)據(jù)集的測(cè)試集的分布相匹配七婴,這是一個(gè)眾所周知的數(shù)據(jù)集,許多現(xiàn)代圖像分類器模型都經(jīng)過(guò)測(cè)試察滑。然后評(píng)估 30 種不同的現(xiàn)代圖像分類模型的性能打厘。它發(fā)現(xiàn)從原始測(cè)試集到新測(cè)試集的準(zhǔn)確性有顯著下降 - 例如,VGG 和 ResNet 架構(gòu)從其完善的 93%精度下降到大約 85%贺辰。然而户盯,分類器相對(duì)于彼此的性能保持或多或少是恒定的 - 因此,分類器的性能分布可以被認(rèn)為是簡(jiǎn)單地水平移位饲化。
結(jié)果對(duì)當(dāng)前分類器的穩(wěn)健性產(chǎn)生了懷疑莽鸭。廣泛使用的模型的分類準(zhǔn)確性顯著下降 - 例如,VGG 和 ResNet 的準(zhǔn)確度損失對(duì)應(yīng)于 CIFAR-10 數(shù)據(jù)集的多年進(jìn)展吃靠。因此硫眨,分配轉(zhuǎn)移質(zhì)疑當(dāng)前模型真正推廣的程度
- 六月 - RF-Pose
本文通過(guò)墻壁和遮擋提供準(zhǔn)確的人體姿勢(shì)估計(jì)。它利用了 WiFi 頻率中的無(wú)線信號(hào)穿過(guò)墻壁并反射出人體的事實(shí)巢块,并使用深度神經(jīng)網(wǎng)絡(luò)方法來(lái)解析這些無(wú)線電信號(hào)以估計(jì) 2D 姿勢(shì)礁阁。無(wú)論光照條件如何,姿勢(shì)估計(jì)都能很好地工作族奢,并且還可以檢測(cè)多個(gè)人姥闭。
在網(wǎng)絡(luò)中,有一個(gè)教師網(wǎng)絡(luò)歹鱼,可以查看墻壁的彩色圖像泣栈,并預(yù)測(cè)人體所處的姿勢(shì)。還有一個(gè)學(xué)生網(wǎng)絡(luò)將信號(hào)作為輸入弥姻,并了解不同的分布意思是南片,它們與不同的人類姿勢(shì)和姿勢(shì)有何關(guān)聯(lián)。教師網(wǎng)絡(luò)向?qū)W生網(wǎng)絡(luò)顯示正確的結(jié)果庭敦,學(xué)生學(xué)習(xí)如何通過(guò)無(wú)線電信號(hào)而不是圖像來(lái)制作它們疼进。
除了用于交互式視頻游戲中的動(dòng)作捕捉,以及幫助為電影創(chuàng)建特殊效果之外秧廉,姿勢(shì)估計(jì)還可用于幫助檢測(cè)患者姿勢(shì)的問(wèn)題伞广,跟蹤動(dòng)物的活動(dòng),理解手語(yǔ)和自己的行人活動(dòng)疼电。 - 駕駛汽車(chē)。
本文強(qiáng)調(diào)了一種評(píng)估圖像分類器在抵抗損壞和擾動(dòng)能力方面的性能的方法区丑。它創(chuàng)建了兩個(gè)數(shù)據(jù)集 - ImageNet-C(用于損壞)和 ImageNet-P(用于擾動(dòng)) - 這有助于測(cè)試圖像分類器對(duì)這種變化的穩(wěn)健性,這在現(xiàn)實(shí)場(chǎng)景中很常見(jiàn)沧侥。
在圖像的上下文中可霎,損壞通過(guò)扭曲其細(xì)節(jié)來(lái)描述對(duì)基本圖像的修改。本文在 ImageNet 圖像上使用了 15 種不同的損壞函數(shù)癣朗,每種函數(shù)都有 5 個(gè)嚴(yán)重級(jí)別旺罢。這些損壞函數(shù)描述的方法包括高斯噪聲旷余,雪和像素化的添加。
擾動(dòng)通過(guò)變換方法改變其外觀來(lái)描述圖像的扭曲主经。本文在 ImageNet 圖像上使用了 8 種不同的擾動(dòng)函數(shù)荣暮,包括縮放罩驻,傾斜和平移惠遏。
使用從 ImageNet-C 和 ImageNet-P 數(shù)據(jù)集中獲得的圖像測(cè)試分類器,通過(guò)在每種類型的所有函數(shù)和所有嚴(yán)重級(jí)別上平均其準(zhǔn)確性节吮,本文創(chuàng)建了關(guān)于其對(duì)損壞和擾動(dòng)的魯棒性的魯棒性評(píng)分。
- 七月 - Phrank
所產(chǎn)生的算法使基因診斷中最勞動(dòng)密集的部分自動(dòng)化翘骂,即將患者的基因序列和癥狀與科學(xué)文獻(xiàn)中描述的疾病相匹配帚豪。如果沒(méi)有計(jì)算機(jī)幫助,這個(gè)匹配過(guò)程每個(gè)患者需要 20 到 40 個(gè)小時(shí) - 這個(gè)過(guò)程需要專家查看大約 100 名患者可疑的突變列表莹桅,做出有根據(jù)的猜測(cè)烛亦,哪一個(gè)可能導(dǎo)致疾病,檢查科學(xué)文學(xué)铐达,然后繼續(xù)下一個(gè)檬果。 Bejerano 團(tuán)隊(duì)開(kāi)發(fā)的算法將所需時(shí)間縮短了 90%。
算法的名稱衷畦,Phrank知牌,一個(gè) “表型” 和“等級(jí)”的混搭,給出了它如何工作的暗示:它將患者的癥狀和基因數(shù)據(jù)與醫(yī)學(xué)文獻(xiàn)知識(shí)庫(kù)進(jìn)行比較菩混,然后簡(jiǎn)單地生成一個(gè)排序列表扁藕,其中罕見(jiàn)的遺傳性疾病最容易引起癥狀。平均而言邢疙,Phrank 在其產(chǎn)生的潛在診斷列表中將真正的診斷排在第 4 位望薄。
- 十二月 - GAN 剖析
本文提出了一個(gè)框架,用于在單元颁虐,對(duì)象和場(chǎng)景級(jí)別可視化和理解 GAN卧须。它提供了生成場(chǎng)景圖像花嘶,識(shí)別對(duì)作為場(chǎng)景一部分的特定對(duì)象有貢獻(xiàn)的 GAN 單元或神經(jīng)元的能力,然后利用這些來(lái)激活或停用該特定對(duì)象的存在察绷。因此拆撼,這使我們能夠在不需要 Photoshop 等工具的情況下操作圖像。
例如闸度,如果我們有一個(gè)教堂的圖像莺禁,我們可以向這個(gè)框架表明我們希望移除圖像中存在的門(mén)。因此楼熄,框架將移除門(mén),同時(shí)以合適的方式保持圖像的其余部分的結(jié)構(gòu)错敢。如果需要缕粹,我們可以將門(mén)添加回去。除此之外亚享,我們可以選擇圖像的特定區(qū)域绘面,我們希望在其中添加新內(nèi)容 - 例如,我可以在教堂圖像的右側(cè)添加一棵樹(shù)魄衅√粮ǎ框架理解樹(shù)木在地面上有根,因此在指定位置從地面構(gòu)建哲银。該框架還能夠識(shí)別添加不適合的地方 - 例如呻惕,如果我們希望在天空中繪制一扇門(mén),框架將不接受此請(qǐng)求做院。
該框架使用分段網(wǎng)絡(luò)和解剖方法來(lái)識(shí)別與有意義的對(duì)象類(如樹(shù))匹配的生成器的各個(gè)單元濒持。然后柑营,當(dāng)它們?cè)趫D像中被修改時(shí),它激活和停用對(duì)應(yīng)于每個(gè)對(duì)象類的神經(jīng)元 - 例如酒奶,插入樹(shù)激活 GAN 中與樹(shù)對(duì)應(yīng)的神經(jīng)元。什么被允許杠氢,這是本文的一個(gè)重要發(fā)現(xiàn) - 相同的神經(jīng)元控制各種環(huán)境中的特定對(duì)象類瘸彤,即使對(duì)象的最終外觀變化很大。相同的神經(jīng)元可以打開(kāi) “門(mén)” 的概念,即使一個(gè)巨大的石墻需要一個(gè)朝向左側(cè)的大型重型門(mén)玻靡,或者一個(gè)小小屋需要一個(gè)面向右側(cè)的小型門(mén)簾囤捻。
- 十二月 - 基于樣式的生成器
這篇由處理器和顯卡公司 Nvidia 的科學(xué)家撰寫(xiě)的研究論文展示了從樣式轉(zhuǎn)移文獻(xiàn)中借鑒的生成對(duì)抗網(wǎng)絡(luò)的替代生成器架構(gòu)的潛力。它允許對(duì)人臉中的特征進(jìn)行特定的定制和控制视哑。它有可能應(yīng)用于其他領(lǐng)域誊涯,迄今已在汽車(chē)和房間上成功測(cè)試過(guò)暴构。
生成器可以組合圖像的不同方面。例如取逾,如果希望將一個(gè)面部的性別與另一個(gè)面部的性別重疊砾隅,則生成器可以這樣做∏绻。可以轉(zhuǎn)移的方面包括性別邑时,頭發(fā)長(zhǎng)度,姿勢(shì)和眼鏡的存在黍氮。
還可以逐個(gè)控制發(fā)生器的參數(shù)而不修改圖像的核心內(nèi)容。例如捷枯,可以修改殘茬的存在专执。
生成器也可以執(zhí)行插值。這意味著如果我們有兩個(gè)圖像 A 和 B攀痊,則生成器可以創(chuàng)建將這些圖像映射到另一個(gè)的中間圖像拄显。它甚至可以改變過(guò)程中的性別。所有中間圖像也都是真實(shí)的棘街。
2017
當(dāng)今開(kāi)發(fā)機(jī)器學(xué)習(xí)算法和系統(tǒng)的組織面臨的一個(gè)大問(wèn)題是隱私 - 消費(fèi)者不愿意讓他人查看他們的數(shù)據(jù)遭殉,因?yàn)檫@些數(shù)據(jù)被認(rèn)為對(duì)他們敏感博助。 Google AI 對(duì)聯(lián)合學(xué)習(xí)的新研究提出了一個(gè)解決方案。
聯(lián)盟學(xué)習(xí)技術(shù)依賴于分布式訓(xùn)練 - 它允許在通用數(shù)據(jù)的子集上獨(dú)立訓(xùn)練模型罗心,然后將這些獨(dú)立模型組裝成單個(gè)主模型城瞎。
有幾個(gè)用例可以更好地描述它的功能。首先飒箭,醫(yī)療患者不愿意將他們的健康記錄發(fā)送給他們不能信任的其他醫(yī)院和組織蜒灰。 聯(lián)盟學(xué)習(xí)建議每家醫(yī)院使用其擁有的有限患者數(shù)據(jù)構(gòu)建自己的模型强窖,然后使用 Google 的聯(lián)合平均算法將每個(gè)醫(yī)院的模型組裝成單個(gè)統(tǒng)一模型。其次脑漫,假設(shè)我們希望訓(xùn)練一個(gè)預(yù)測(cè)鍵盤(pán),以便在我們的智能手機(jī)上獨(dú)特地適合我們的個(gè)人打字模式吨拍。我們可以使用 Federated 模型网杆,該模型已經(jīng)根據(jù)許多不同用戶及其數(shù)據(jù)的預(yù)測(cè)模式進(jìn)行了訓(xùn)練和編譯,然后傳遞我們自己的個(gè)人鍵盤(pán)輸入數(shù)據(jù)以更新模型以更好地適應(yīng)我們的個(gè)人打字習(xí)慣队秩。
聯(lián)盟學(xué)習(xí)技術(shù)自那時(shí)起就經(jīng)歷了許多更新和改進(jìn)刹碾,并且當(dāng)人工智能在其開(kāi)發(fā)過(guò)程中進(jìn)入以隱私為中心的時(shí)代時(shí)座柱,它肯定會(huì)保持相關(guān)性物舒。
假設(shè)您需要縮小您的圖像而不降低主要功能的準(zhǔn)確性,或者您希望從圖像中刪除 RGB 顏色火诸,或者如果您在不支持該范圍的屏幕上顯示高動(dòng)態(tài)范圍的圖像置蜀。雖然有數(shù)百個(gè)現(xiàn)有結(jié)構(gòu)可以做到這些悉盆,但本文描述了一種方法,與現(xiàn)有方法相比秋秤,這些結(jié)構(gòu)非常好脚翘。
本文提出了深度特征一致的深度圖像變換(DFC-DIT)框架。它利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)為輸入圖像生成三個(gè)輸出 - 縮小版本鞋真,脫色版本和 HDR 色調(diào)映射版本涩咖。它還使用了另一種采用深度特征一致性原理的預(yù)訓(xùn)練和固定深度 CNN - 這確保了所有主要特征都保留在圖像中。
原文:https://github.com/iOSDevLog/Virgilio/blob/master/zh-CN/Research/Papers.md