論文鏈接:https://arxiv.org/pdf/2408.15777
復(fù)旦大學(xué)鱼的,王龑博士后領(lǐng)銜,發(fā)布《靜態(tài)與動態(tài)情感的面部表情識別》(A Survey on Facial Expression Recognition of Static and Dynamic Emotions)綜述鸳吸,對基于圖像的靜態(tài)面部表情識別(SFER)和基于視頻的動態(tài)面部表情識別(DFER)方法進(jìn)行了全面綜述速勇,從模型導(dǎo)向的發(fā)展到挑戰(zhàn)聚焦的分類進(jìn)行了系統(tǒng)分析。
論文首先對近期的綜述進(jìn)行批判性比較养匈,介紹了常用的數(shù)據(jù)集和評估標(biāo)準(zhǔn),并深入探討了FER的工作流程呕乎,以建立堅實的研究基礎(chǔ)。接著猬仁,系統(tǒng)性地回顧了應(yīng)對SFER的八大主要挑戰(zhàn)(如表情干擾、不確定性湿刽、復(fù)合情緒和跨域不一致性)以及應(yīng)對DFER的七大主要挑戰(zhàn)(如關(guān)鍵幀采樣褐耳、表情強(qiáng)度變化和跨模態(tài)對齊)的代表性方法。此外铃芦,分析了近期的進(jìn)展、基準(zhǔn)表現(xiàn)刃滓、主要應(yīng)用及倫理考量。最后咧虎,提出了五個有前景的未來研究方向和發(fā)展趨勢,以指導(dǎo)后續(xù)研究僚饭。本論文的項目頁面可訪問:https://github.com/wangyanckxx/SurveyFER。
研究背景
情感計算在關(guān)鍵國家領(lǐng)域具有深遠(yuǎn)的影響和重要性鳍鸵。英國創(chuàng)新署(Innovate UK)將“人工智能(AI)情感和表情識別”列為2024年對英國經(jīng)濟(jì)和社會產(chǎn)生深刻影響的50項新興技術(shù)之首。中國科學(xué)技術(shù)協(xié)會也隆重發(fā)布了2024年的重大科學(xué)問題偿乖,其中,具有情感和情感智能的數(shù)字人和機(jī)器人研究被選為十大前沿科學(xué)問題之一贪薪。顯然,AI情感和表情識別技術(shù)的發(fā)展已成為通用人工智能竣稽、數(shù)字計算和多學(xué)科研究的必然要求。
面部表情是人類情感表達(dá)的主要和直接手段毫别,在人際互動中頻繁使用,且具有極其重要的意義岛宦。面部表情通過非語言的方式傳達(dá)比聲音、手勢和身體姿勢更豐富的情感信息砾肺。面部情感的概念最早由達(dá)爾文在其著作《人類與動物的表情》中提出防嗡,表情被認(rèn)為是天生的,是動物和人類在進(jìn)化和生存過程中適應(yīng)性動作的遺留物本鸣。Ekman和Friesen提出了六種基本情感:快樂、憤怒荣德、悲傷、驚訝涮瞻、恐懼和厭惡,并發(fā)現(xiàn)了特定面部肌肉模式與情感類型之間的普遍關(guān)聯(lián)署咽,這在跨文化中是一致的生音。
近年來窒升,隨著AI技術(shù)的進(jìn)步,面部情感識別(FER)方法迅速發(fā)展域醇,并在心理研究、醫(yī)學(xué)診斷和智能人機(jī)交互等領(lǐng)域廣泛應(yīng)用譬挚。FER旨在通過分析面部表情來識別個體的情感狀態(tài)。根據(jù)用于捕捉表情的數(shù)據(jù)類型减宣,F(xiàn)ER可以分為基于圖像的靜態(tài)FER(SFER)和基于視頻的動態(tài)FER(DFER)玩荠。SFER主要解決姿態(tài)遮擋、跨域不一致性姨蟋、標(biāo)簽不確定性立帖、數(shù)據(jù)量不足和跨模態(tài)等挑戰(zhàn)。研究人員還通過各種數(shù)據(jù)增強(qiáng)技術(shù)和正則化方法來緩解數(shù)據(jù)量不足和標(biāo)簽不確定性的問題晓勇。此外,通過跨模態(tài)信息融合绰筛,提高了表情識別的魯棒性和準(zhǔn)確性。
SFER關(guān)注瞬時表情铝噩,而DFER則關(guān)注面部表情的時間變化,以準(zhǔn)確描述和理解情感轉(zhuǎn)變的全過程骏庸。處理視頻序列中的表情識別,DFER面臨關(guān)鍵幀提取具被、時空特征提取只损、表情強(qiáng)度變化和跨模態(tài)融合的主要挑戰(zhàn)。為捕捉動態(tài)表情信息,DFER模型不僅關(guān)注單幀中的靜態(tài)特征艾栋,還結(jié)合了連續(xù)幀之間的時間關(guān)系。
面部表情研究分類
本文系統(tǒng)總結(jié)了面部表情識別(FER)研究的現(xiàn)狀裹粤,并通過層次化分類體系,將現(xiàn)有的FER研究按輸入類型(基于圖像的SFER和基于視頻的DFER)遥诉、任務(wù)挑戰(zhàn)和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行組織噪叙,如圖1所示。對于SFER睁蕾,我們識別了八個關(guān)鍵挑戰(zhàn),如干擾子眶、不確定性、復(fù)合標(biāo)簽臭杰、跨域適應(yīng)性和跨模態(tài)問題,并總結(jié)了現(xiàn)有方法中常用的應(yīng)對這些挑戰(zhàn)的模型結(jié)構(gòu)渴杆。對于DFER,我們還結(jié)合了七個額外的考慮因素磁奖,如關(guān)鍵幀提取、表情強(qiáng)度變化冠跷、靜態(tài)與動態(tài)一致性、半監(jiān)督學(xué)習(xí)和跨域?qū)R蔽莱,并總結(jié)了當(dāng)前方法的解決方案。
我們進(jìn)一步分析并討論了典型方法在基準(zhǔn)數(shù)據(jù)集上的最新進(jìn)展盗冷。此外,我們還在GitHub倉庫中總結(jié)了基準(zhǔn)數(shù)據(jù)集仪糖、評估指標(biāo)柑司、文獻(xiàn)攒驰、代碼、工作流程和相關(guān)討論玻粪。為了構(gòu)建這一分類體系,我們廣泛回顧了2016年至2024年間的大量研究論文劲室。圖2展示了2016年至2024年間與基于圖像的SFER和基于視頻的DFER相關(guān)的出版物和引用趨勢。從2019年開始结窘,出版物和引用量顯著增加,并持續(xù)增長到2023年喉磁,并預(yù)計在2024年繼續(xù)上升。這反映了對SFER和DFER領(lǐng)域的興趣和進(jìn)展的日益增長协怒。
圖1:靜態(tài)和動態(tài)情感的面部表情識別(FER)分類體系卑笨。我們提出了一個層次化分類體系孕暇,在系統(tǒng)框架內(nèi)根據(jù)輸入類型芭商、任務(wù)挑戰(zhàn)和網(wǎng)絡(luò)結(jié)構(gòu)對現(xiàn)有的FER模型進(jìn)行分類派草,旨在提供當(dāng)前FER研究全貌的全面概述。首先近迁,我們將數(shù)據(jù)集、評估指標(biāo)和工作流程(包括文獻(xiàn)和代碼)引入了一個公共的GitHub倉庫中(第1歧譬、2和3節(jié))。接著瑰步,基于圖像的SFER(第4節(jié))和基于視頻的DFER(第5節(jié))通過不同的學(xué)習(xí)策略和模型設(shè)計來克服不同的任務(wù)挑戰(zhàn)。隨后璧眠,我們分析了FER在基準(zhǔn)數(shù)據(jù)集上的最新進(jìn)展(第6節(jié))读虏。最后袁滥,我們討論并總結(jié)了FER中的一些重要問題和潛在趨勢,并強(qiáng)調(diào)了未來發(fā)展的方向(第7揩徊、8和9節(jié))。
綜述優(yōu)勢
S塑荒、D 和 WF 分別表示靜態(tài)、動態(tài)和工作流程袜炕。
DI、3D偎窘、UA、CP陌知、CD、LS 和 CM 分別表示靜態(tài)仆葡、動態(tài)和工作流程志笼。
SL、EI纫溃、MM腰涧、SD窖铡、SS 和 VL 分別表示采樣、表情強(qiáng)度费彼、多模態(tài)口芍、靜態(tài)到動態(tài)、半監(jiān)督和視覺-語言鬓椭。
HPC聋庵、PE 和 HCI 分別表示健康與心理咨詢、個性化教育和人機(jī)交互祭玉。
貢獻(xiàn)點
為了闡明面部表情識別(FER)的發(fā)展并激發(fā)未來研究,本綜述涵蓋了研究背景脱货、數(shù)據(jù)集律姨、通用工作流程、任務(wù)挑戰(zhàn)择份、方法、性能評估荣赶、應(yīng)用、倫理問題以及發(fā)展趨勢拔创。總的來說剩燥,本工作的主要貢獻(xiàn)如下:
據(jù)我們所知,這是第一個將FER研究分為基于圖像的靜態(tài)FER(SFER)和基于視頻的動態(tài)FER(DFER)的綜合性綜述灭红,從模型導(dǎo)向的發(fā)展擴(kuò)展到挑戰(zhàn)導(dǎo)向的分類,并深入分析了實際環(huán)境中的挑戰(zhàn)與解決方案君珠。
我們系統(tǒng)回顧了SFER中涉及的八大主要挑戰(zhàn)(如表情干擾、不確定性赁项、跨域不一致性)和DFER中涉及的七大主要挑戰(zhàn)(如關(guān)鍵幀提取澈段、表情強(qiáng)度變化、跨模態(tài)對齊)的最新代表性方法败富。
我們總結(jié)、分析并討論了FER在不同基準(zhǔn)數(shù)據(jù)集上的最新進(jìn)展和技術(shù)挑戰(zhàn)兽叮,涵蓋了實驗室內(nèi)FER猾愿、自然環(huán)境中的SFER和自然環(huán)境中的DFER的設(shè)置账阻。
本綜述總結(jié)了三個領(lǐng)域的應(yīng)用和倫理問題蒂秘,并討論了發(fā)展趨勢(如零樣本FER和具身面部表情生成)姻僧,旨在為FER系統(tǒng)提供新的視角和指導(dǎo)。
數(shù)據(jù)集
表情識別標(biāo)準(zhǔn)流程
深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)
基于圖像的靜態(tài)面部表情識別(SFER)涉及從單張圖像中提取特征撇贺,這些特征捕捉了與面部表情相關(guān)的復(fù)雜空間信息冰抢,如面部標(biāo)志點及其幾何結(jié)構(gòu)和關(guān)系。接下來挎扰,我們將首先介紹SFER的一般架構(gòu),然后從挑戰(zhàn)解決的角度詳細(xì)說明SFER方法的具體設(shè)計遵倦,包括抗干擾的SFER、3D SFER橙弱、考慮不確定性的SFER、復(fù)合SFER燥狰、跨域SFER、弱監(jiān)督SFER和跨模態(tài)SFER蛀缝。
更多類型網(wǎng)絡(luò)架構(gòu)圖參考論文 https://arxiv.org/pdf/2408.15777
通用的動態(tài)面部表情識別(DFER)方法主要通過提取時空特征來分析表情的動態(tài)變化目代。基于CNN-RNN的模型通常結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)榛了,而基于Transformer的方法則利用深度注意力機(jī)制來處理更復(fù)雜的動態(tài)關(guān)系。
更多類型網(wǎng)絡(luò)架構(gòu)圖參考論文 https://arxiv.org/pdf/2408.15777
發(fā)展趨勢
面部動作單元(AUs)輔助的FER通過捕捉細(xì)微的肌肉動作霜大,提升了表情識別的準(zhǔn)確性和跨文化適應(yīng)性,并增強(qiáng)了模型的可解釋性和透明度曙强。
零樣本FER旨在識別未見過的情感類別,解決傳統(tǒng)FER模型難以擴(kuò)展到新情感類別的局限碟嘴,利用視覺語言模型實現(xiàn)廣泛的情感識別。
多模態(tài)情感識別通過整合面部表情眠菇、聲音、手勢等多種渠道袱衷,提供更全面的情感理解,減少單一模態(tài)系統(tǒng)的局限性登疗,展現(xiàn)出更強(qiáng)的魯棒性和準(zhǔn)確性。
具身FER系統(tǒng)結(jié)合互動技術(shù)辐益,實現(xiàn)對多視角和動態(tài)環(huán)境的實時情感檢測和響應(yīng)脱吱,增強(qiáng)了用戶體驗,并在復(fù)雜環(huán)境中展現(xiàn)出更高的適應(yīng)性箱蝠。
具身面部表情生成通過AIGC和馬達(dá)驅(qū)動兩種方式,使機(jī)器人能夠更逼真地模仿人類表情牙瓢,未來研究將專注于提升其真實性和表現(xiàn)力。
結(jié)論
面部表情識別(FER)在AI領(lǐng)域受到廣泛關(guān)注间校,并在人與機(jī)器協(xié)作和具身智能方面展現(xiàn)出廣闊的應(yīng)用前景。本綜述從多個角度對FER進(jìn)行了深入審視憔足,包括背景胁附、數(shù)據(jù)集滓彰、通用工作流程、挑戰(zhàn)導(dǎo)向的最新方法分類找蜜、近期進(jìn)展稳析、應(yīng)用弓叛、倫理問題和新興趨勢诚纸。我們通過表格和圖表系統(tǒng)地比較和總結(jié)了FER的數(shù)據(jù)集撰筷、任務(wù)挑戰(zhàn)畦徘、方法和性能評估,提供了該領(lǐng)域最新進(jìn)展的清晰概覽关筒。這一全面分析為不同學(xué)科的研究人員提供了重要參考杯缺,幫助他們快速理解該領(lǐng)域的挑戰(zhàn)和進(jìn)展蒸播,進(jìn)而促進(jìn)在通用FER系統(tǒng)開發(fā)方面的合作袍榆。
本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布塘揣!