我們開源了發(fā)表在ACM MM2020上的工作:
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition
- 文章link:https://arxiv.org/abs/2010.09982
- code link:https://github.com/lovelyqian/AMeFu-Net
文章做的是few-shot video action recogniton的工作成箫。
基于對(duì)視頻中:
1)場(chǎng)景信息可以有效幫助識(shí)別動(dòng)作信息
2)人類即使在場(chǎng)景發(fā)生一定程度的偏移的情況下也能較好識(shí)別視頻動(dòng)作信息
這兩點(diǎn)發(fā)現(xiàn)颖榜,針對(duì)性地提出了:
1)基于adaptive instance normalization的DGAdaIn多模態(tài)融合模塊康栈,有效融合RGB信息和depth信息
2)temporal shift sampling操作,通過(guò)采取不完全匹配的RGB和depth視頻片段作為訓(xùn)練數(shù)據(jù)算灸,提升模型的魯棒性。
歡迎大家關(guān)注我們的工作驻啤,非常感謝~