原文:https://papers.nips.cc/paper/2018/file/a981f2b708044d6fb4a71a1463242520-Paper.pdf
一句話總結:利用證據理論進行不確定性估計,提出了 Evidential Deep Learning。
- 使用 Softmax 的不足
對于分類任務乖杠,用 softmax作為輸出類別概率的操作是很常見的须揣, 最小化負的似然對數(shù)對應的 loss 是 cross-entropy窑睁。 cross-entropy 的概率解釋只是最大似然估計(MAE)尝苇,作為一個頻率學派的方法,不能推理出預測分布的方差征炼。由于神經網絡輸出所采用的指數(shù)逃糟,Softmax會夸大預測類別概率吼鱼,其結果是不可靠的不確定性估計。
頻率學派認為似然函數(shù)
中的參數(shù)
是固定的绰咽,可以通過數(shù)據x的概率分布的得到菇肃,最大似然估計是找到是的似然函數(shù)最大的
值。而貝葉斯學派認為參數(shù)
是個分布取募,因此可以給出不確定性琐谤。
- 不確定性和證據理論
Dempster-Shafer 證據理論 (DST) 是貝葉斯理論對主觀概率的推廣 。它將信念質量(belief mass)分配給識別框架的子集矛辕,該子集表示唯一可能狀態(tài)的集合笑跛,例如一個樣本可能的類別標簽付魔。一個信念質量可以分配給框架的任何子集聊品,包括整個框架本身飞蹂,它代表了真理可以是任何可能的狀態(tài)的信念,例如翻屈,所有類別是均勻分布的陈哑。
主觀邏輯 (subjective logic,SL) 將 DST 在識別框架上的信念分配概念形式化為 Dirichlet 分布 伸眶。因此惊窖,它允許人們使用證據理論的原理,通過定義明確的理論框架來量化信念質量和不確定性厘贼。
說人話就是界酒,假設 K 個相互獨立的類別,對于每個類別都分配一個 belief mass 嘴秸,并且有一個整體的
毁欣。這 K + 1 個質量值都是非負的并且總和為 1,即
岳掐,其中各項都是≥0.
計算 belief mass 需要用到證據(evidence) 凭疮,
不確定性與總證據成反比。當沒有證據時串述,每個類別的信念為0执解,不確定性為1。作者把證據稱為從數(shù)據中收集到的纲酗,有利于將樣本歸入某個類別的支持量的量度衰腌。belief mass 的分配,即主觀看法(subjective opinion)觅赊,對應于參數(shù)為Dirichlet分布的參數(shù)桶唐。
也就是說主觀看法可以通過Dirichlet分布得到,茉兰。
標準神經網絡分類器的輸出是對每個樣本的可能類別的概率分配尤泽。然而,對證據進行參數(shù)化的 Dirichlet 分布代表了每個這樣的概率分配的密度规脸;因此坯约,它二階概率和不確定性的模型。
對于一個看法莫鸭,第k個類別的期望概率為相應 Dirichlet 分布的平均值闹丐,并計算為。
在本文中被因,作者認為神經網絡能夠形成Dirichlet 分布分類任務的意見卿拴。假設為樣本i分類的Dirichlet分布的參數(shù)堕花,
為網絡估計的樣本 i 分配到第j類的總證據文狱。此外,給定這些參數(shù)缘挽,分類的認知不確定性可以很容易地用上面的公式計算出來瞄崇。
- 方法實現(xiàn)
把神經網絡的最后一層的 softmax換成一個產生非負輸出的激活函數(shù),比如ReLU壕曼,然后把輸出作為預測 Dirichlet 分布的證據苏研。
loss:
(以后看)