Learning regional attention convolutional neural network for motion intention based on EEG
? 這篇論文創(chuàng)新點:
1、特征是頻域-空間-時域的特征,和以往特征相比,更加全面专甩。
2破停、 論文提出了RACNN, 適應性激活了不同腦區(qū)综膀。
3、 論文集合了區(qū)域特征琼了,這些區(qū)域特征通過cnn 這樣的主框架,保證了一個固定長度的embedding。然后受啟發(fā)于左右大腦的不對稱猜谚,使用了不同region attention loss,保證了最高attention 的區(qū)域是最重要的區(qū)域败砂。
Emotive:
這里邊選擇了九個通道作為運動想象通道,準確率其實沒有提高太多魏铅,最重要它通過這種方式是真的減少了通道數(shù)目昌犹。
充分利用了time-frequency的特征,但是使用filter-bank的想法并不是作者提出的览芳,是在FBCSP 中已經(jīng)提出來斜姥。
小波變換---離散小波變換---后來是可以改變的小波變換,也就是傅里葉變換---- 再后來是濾波bank的共同空間模式沧竟,但是這樣的算法铸敏,一般都使用了machine learning. 一般使用了矩陣分解,沒有使用神經(jīng)網(wǎng)絡悟泵。
這篇論文之所以能中頂會杈笔,主要是提出了創(chuàng)新性的attention, 在小數(shù)據(jù)模型中盡量減少參數(shù)糕非。
第一層 attention
是論文中用參數(shù)最少的attention蒙具,使用cnn中的golbal pooling average, 來完成。 然后使用了tanh函數(shù)變成一個權重朽肥。 tanh 函數(shù)禁筏,把權值把原有的差異性變大。
第二層 attention
其中self-attention? 也不是作者的創(chuàng)新衡招,經(jīng)典的self-attention.以下才是attention
N* feature 加入attention =? ?feature* attention ,其中 attention = softmax( N*feature* Q). 篱昔,也就是文章中的 β。
softmax 也就是歸一化蚁吝,但是作者沒有使用簡單的attention * feature.?旱爆, 而是增加了一個最小的region-attention 的
,是所在區(qū)域中最小的注意力參數(shù)窘茁。也就是說這里邊除了有一個
這樣的注意力之前怀伦,還增加了一個所在區(qū)的最小注意力的權重。 同時最后的featrue 又乘以所有權重和的導數(shù)山林。這個值是所有feature 都相乘的權重房待,有什么用?同樣倍數(shù)的增大驼抹,和同事乘以1000 是一樣的效果桑孩。
相乘倒數(shù)這件事,并沒有什么用框冀。能做大的可能是差異性流椒。最有用的還是 每個區(qū)的最小權重和學習出的權重相乘,對最后feature造成影響明也。
論文最后的attention_loss宣虾, 文章提到希望能找出最好區(qū)域惯裕,但是最后的公式
, 很明顯绣硝,想找出最重要的通道蜻势。。鹉胖。握玛。
所以我在想,作者這筆是不是應該寫為:
, 這樣才能找到權重不一樣的區(qū)域甫菠。
我的想法:
在消融實驗中挠铲,第一個結果是 74.6%,沒有使用attention loss, 第二個使用了attention loss,但是結果是70.1. 這是證明了結論了么淑蔚?
第三個實驗市殷, 使用了log baseline 和 第二個參數(shù)下的結果,76.8.? 為什么不跑沒有attention + log baseline的結果呢刹衫? 這里的結論有點虛啊醋寝。
感覺不是很好地證明了attention loss的重要性,而且我自己跑的結果也發(fā)現(xiàn)带迟,attention 加入后音羞,一般效果會更差一些。
實驗有沒有可以提高的部分:
1仓犬、因為這篇論文跑的是運動想象嗅绰,結果都不是太好,另外一個數(shù)據(jù)集準確率在37.9%搀继,有點太低了窘面。
2、最后average pool + tanh 真的可以作為每個channel的權重么叽躯? 特別是枕葉區(qū)财边,作為視覺腦電通道,它的頻率高点骑,agerage 肯定值可能會比較大酣难,最后的權重也大么?? 不科學昂诘巍憨募!