數(shù)據(jù)的高維度分析和低維度描述記錄-
能譜分析和Eigen使用記錄
實(shí)例-
能譜
放射源
放射源使用,這是一種同位素乘碑,不穩(wěn)定检碗,容易發(fā)生衰變据块,例如有95%的概率發(fā)生
衰變,產(chǎn)生
折剃。
是一個(gè)所謂的“亞穩(wěn)態(tài)”核另假,它不穩(wěn)定,會(huì)以85%的概率向自身的基態(tài)躍遷怕犁。這是一個(gè)退激發(fā)過程边篮,一個(gè)具有動(dòng)能0.662MeV的光子將會(huì)伴隨著退激發(fā)過程從核中釋放出來,我們一般會(huì)將這種光子稱為
射線奏甫。
探測器
探測器使用HPGe探測器戈轿,它由兩個(gè)重要部件組成——HPGe晶體和閃爍光轉(zhuǎn)換部件。
HPGE是一種閃爍晶體阵子,由Ge(鍺)晶體制作思杯,其中的Ge純度很高,因此被稱作"High-Purity Germanium Detector"(“高純鍺探測器”)挠进,簡稱"HPGe"智蝠。鍺晶體用來吸收射線的能量腾么,以激發(fā)態(tài)的形式短暫地存儲(chǔ)能量,最終退激發(fā)杈湾,并將能量以熒光的形式釋放。這個(gè)轉(zhuǎn)換過程就像晶體在發(fā)光一樣攘须,由于
射線是間斷進(jìn)入鍺晶體的漆撞,導(dǎo)致晶體是間斷著發(fā)射熒光的,感覺上像是晶體在“閃爍”于宙。當(dāng)然浮驳,如果
射線的強(qiáng)度非常大,在鍺晶體完成熒光發(fā)射之前捞魁,又有新的
光子進(jìn)入了其中至会,那么鍺晶體會(huì)繼續(xù)熒光的發(fā)射,整體上就沒有了“閃爍”的效果谱俭。
閃爍光轉(zhuǎn)換部件奉件,名字叫起來很高大上,其實(shí)就是個(gè)利用了光電效應(yīng)的電壓表昆著,當(dāng)年愛因斯坦他們可能就是拿這玩意做的實(shí)驗(yàn)县貌。這個(gè)東西的主要功能就是把熒光的能量轉(zhuǎn)換為電流的電荷量,中間用了用電子倍增凑懂、電磁感應(yīng)之類的東西煤痕,總的來說,就是個(gè)光電轉(zhuǎn)換加上一個(gè)電壓表/電流表接谨。這個(gè)東西在測量熒光能量時(shí)摆碉,會(huì)產(chǎn)生誤差,而且不小脓豪,這也是為啥能譜看上去很圓潤的原因巷帝。
樣本、數(shù)據(jù)和維度
在本節(jié)的實(shí)例下跑揉,一個(gè)樣本锅睛,表示一個(gè)HPGE探測器進(jìn)行一次測量,測量的時(shí)間人為設(shè)定好历谍。一個(gè)數(shù)據(jù)现拒,就是一個(gè)HPGE進(jìn)行一次測量的能譜。這里探測器的電子學(xué)使用1024道望侈,也就說明一個(gè)數(shù)據(jù)中印蔬,包含了1024個(gè)數(shù),有1024個(gè)維度脱衙。
模擬和能譜獲取
使用模擬的方法獲取能譜侥猬。模擬以蒙特卡洛方法為基礎(chǔ)例驹,使用建立在這種方法之上的軟件Geant4來構(gòu)建放射源、探測器退唠,并且用它來模擬微觀反應(yīng)的全過程鹃锈。最后,我來收集射線傳遞給的能量瞧预,并根據(jù)這些能量制作能譜屎债。能量的轉(zhuǎn)換過程可以分為兩個(gè)步驟,第一個(gè)步驟是從
射線進(jìn)入鍺晶體到鍺晶體釋放熒光垢油,第二個(gè)步驟是熒光進(jìn)入閃爍光轉(zhuǎn)換部件盆驹,轉(zhuǎn)換為電荷量,并以數(shù)據(jù)形式保存在電腦中滩愁。
第一個(gè)步驟是光子將自己的動(dòng)能傳遞給鍺晶體躯喇,鍺晶體將這些動(dòng)能以熒光的形式放出,導(dǎo)致鍺晶體“閃爍”硝枉,這個(gè)過程使用Geant4模擬廉丽,統(tǒng)計(jì)探測器內(nèi)的總能量沉積即可。
第二個(gè)步驟是考慮閃爍光轉(zhuǎn)換部件的測量誤差檀咙。認(rèn)為每一次因光子入射而引發(fā)的“電壓表”記錄是一次事件雅倒,這次事件的結(jié)果是獲得一個(gè)電荷量,也就是探測器認(rèn)為的光子傳遞給它自己的能量弧可。實(shí)際上蔑匣,這個(gè)能量是有誤差的,一般我們會(huì)認(rèn)為這個(gè)誤差是以高斯型分布引入的棕诵,準(zhǔn)確的說裁良,是測量得到的電荷量符合高斯分布,高斯分布的期望是真實(shí)的
射線傳遞的能量校套,標(biāo)準(zhǔn)差是探測器的固有屬性价脾,是一個(gè)固定的數(shù)值。因此笛匙,在數(shù)學(xué)上侨把,這一步的操作就是以上一步得到的能譜為函數(shù),增加一個(gè)高斯分布妹孙,這種操作屬于卷積秋柄。
卷積和能譜解釋
根據(jù)前文的介紹,能譜通過兩個(gè)步驟制作而成蠢正,第一個(gè)步驟是統(tǒng)計(jì)射線在閃爍體內(nèi)沉積的能量骇笔,以能量沉積譜表征,雖然這里提到了能量沉積譜,但是這個(gè)譜并不能在實(shí)驗(yàn)中獲取笨触,因?yàn)樗⒉皇菙?shù)字信息懦傍,不能以數(shù)字信息的形式傳輸?shù)诫娔X中,更不能被記錄在硬盤等數(shù)字存儲(chǔ)媒介中芦劣。為了保存這個(gè)能譜粗俱,才設(shè)計(jì)了第二個(gè)步驟,簡言之就是將第一個(gè)步驟中的能量沉積譜轉(zhuǎn)換為數(shù)字形式虚吟,并且保存在硬盤等數(shù)字存儲(chǔ)媒介中源梭。第二個(gè)步驟是沉積的能量被轉(zhuǎn)換成熒光,熒光接著被轉(zhuǎn)換成電子稍味,電子接著被電場加速,用來影響電極之間的電壓荠卷,最后電壓被電壓表測量并以數(shù)字信息保存模庐。
雖然步驟二的目標(biāo)是將能量沉積譜保存在電腦硬盤中,但是步驟二的這一套過程引入了大量的誤差油宜,使最終保存的能量不是真實(shí)的沉積能量掂碱。為了還原真實(shí)的能量,需要了解步驟二引入誤差的方式慎冤。
高斯隨機(jī)分布疼燥,是用來描述步驟二的分布之一,也是最簡單的方法蚁堤。這個(gè)方法認(rèn)為醉者,步驟二得到的能量是一個(gè)隨機(jī)數(shù),這個(gè)隨機(jī)數(shù)符合一個(gè)高斯分布披诗,這個(gè)高斯分布的期望是步驟一的沉積能量撬即,方差與探測器系統(tǒng)有關(guān)。因此呈队,步驟一的能量沉積譜中剥槐,每一道內(nèi)的所有計(jì)數(shù),也稱為“事件”宪摧,都符合同一個(gè)高斯分布粒竖,在步驟二中,它們的能量會(huì)按照這個(gè)分布被分散到對(duì)應(yīng)的能量區(qū)間上几于。在分散完所有能量道后蕊苗,就得到了步驟二的結(jié)果,這個(gè)過程就稱為“卷積”孩革。
考察第i個(gè)光子入射探測器岁歉,也就是第i個(gè)事件。該事件中,令光子在閃爍體內(nèi)沉積的能量為
锅移,電子學(xué)測量到的能量為
熔掺。那么,
是一個(gè)符合高斯分布的隨機(jī)數(shù)非剃,這個(gè)高斯分布的期望
為
置逻,標(biāo)準(zhǔn)差
與探測器系統(tǒng)有關(guān),并且受到沉積能量的影響备绽。整體上券坞,標(biāo)準(zhǔn)差與探測器系統(tǒng)的關(guān)系更大,在探測器系統(tǒng)固定的前提下肺素,不同的能量沉積會(huì)造成不同的標(biāo)準(zhǔn)差恨锚。在誤差允許的前提下,可以認(rèn)為標(biāo)準(zhǔn)差與能量沉積無關(guān)倍靡,其實(shí)一般都是這么做的猴伶。
考察步驟一結(jié)束時(shí)得到的能譜,這是真正意義上的能量沉積所統(tǒng)計(jì)出來的直方圖塌西,這些能量是沒有被探測器系統(tǒng)“污染”的他挎,沒有誤差的,不是上文所說的隨機(jī)數(shù)捡需。這個(gè)能譜是直方圖办桨,就是一系列的區(qū)間和計(jì)數(shù)。設(shè)定區(qū)間總數(shù)量為N站辉,某一個(gè)區(qū)間使用n表示呢撞,注意這個(gè)n與上文中的維度編號(hào)無關(guān)。在本文背景下庵寞,我們使用教學(xué)常用的1024道電子學(xué)系統(tǒng)狸相,那么N為1024。
統(tǒng)計(jì)上捐川,認(rèn)為第個(gè)區(qū)間內(nèi)的所有事件脓鹃,都造成了相同的能量沉積,該能量沉積以
表示古沥,其數(shù)值可以以該區(qū)間的最小值瘸右、最大值、中間值等來代表岩齿,本文選擇中間值太颤。令
表示能量沉積直方圖中最低道所對(duì)應(yīng)的能量,也就是最小能量沉積所對(duì)應(yīng)的區(qū)間盹沈;
表示能量沉積直方圖中最高道所對(duì)應(yīng)的能量龄章,也就是最大能量沉積所對(duì)應(yīng)的區(qū)間。令
表示一個(gè)區(qū)間的寬度,根據(jù)直方圖定義做裙,同一個(gè)直方圖下岗憋,所有區(qū)間的寬度相同。
對(duì)于相同區(qū)間的事件锚贱,也就是能量沉積屬于區(qū)間編號(hào)為的事件仔戈,它們?cè)诓襟E一結(jié)束時(shí)造成的能量沉積在統(tǒng)計(jì)上認(rèn)為相同,我們這里也就認(rèn)為相同拧廊。原因是监徘,由于每一個(gè)事件在步驟一的能量沉積數(shù)值太多,在模擬中雖然可以全部獨(dú)立保存吧碾,但這樣全部獨(dú)立保存的話凰盔,會(huì)占用大量的硬盤,而且數(shù)據(jù)處理起來會(huì)消耗大量時(shí)間倦春,不實(shí)際廊蜒,因此選擇將這些能量沉積數(shù)值進(jìn)行統(tǒng)計(jì),并且以直方圖形式保存溅漾,也就是上文所謂的“步驟一的能譜”。在這個(gè)設(shè)定下著榴,一個(gè)事件自身的能量沉積數(shù)值已經(jīng)被主動(dòng)舍棄了添履,保存下來的只有代表一個(gè)區(qū)間的能量。也就是說脑又,其實(shí)每一個(gè)事件的能量沉積數(shù)值都可以被保存下來暮胧,但是我主動(dòng)放棄了它們。
考察步驟一的能譜问麸,第個(gè)區(qū)間內(nèi)的事件往衷,其能量為
。由于步驟二的測量誤差严卖,
將會(huì)被施加隨機(jī)誤差席舍,從統(tǒng)計(jì)上分析,經(jīng)過了步驟二的測量哮笆,能量值
將符合一個(gè)高斯分布来颤,這個(gè)高斯分布的期望
為
,而標(biāo)準(zhǔn)差同樣與探測器系統(tǒng)有關(guān)稠肘,對(duì)于同一次測量福铅,認(rèn)為探測器系統(tǒng)沒有改變,由此可認(rèn)為所有區(qū)間的能量
所符合的高斯分布的標(biāo)準(zhǔn)差相同项阴。因?yàn)榈?img class="math-inline" src="https://math.jianshu.com/math?formula=nBin%E2%80%8B" alt="nBin?" mathimg="1">個(gè)區(qū)間內(nèi)存在不止一個(gè)事件滑黔,經(jīng)過了步驟二的誤差引入,這些事件的能量將有可能偏離第
個(gè)區(qū)間所代表的能量區(qū)域。
從統(tǒng)計(jì)上分析略荡,步驟一的第個(gè)區(qū)間內(nèi)的事件庵佣,經(jīng)過步驟二的誤差引入后,仍然屬于第
個(gè)區(qū)間內(nèi)的概率
撞芍,可以使用高斯分布進(jìn)行計(jì)算秧了。為了更加明確地表示計(jì)算,將高斯分布的具體形式引入序无。
為了更加明確地表示計(jì)算验毡,將高斯分布的具體形式引入。
那么帝嗡,在真實(shí)使用環(huán)境下的表達(dá)式如下晶通。
現(xiàn)在考慮步驟一的第個(gè)區(qū)間內(nèi)的事件,經(jīng)過步驟二的誤差引入后哟玷,屬于第
個(gè)區(qū)間內(nèi)的概率
狮辽,其推演與上文相同。
上文已經(jīng)從步驟一的能譜視角出發(fā)巢寡,介紹了步驟二的誤差如何引入『聿保現(xiàn)在從步驟二的能譜視角出發(fā),考慮如何從數(shù)學(xué)上獲得誤差干擾后的能譜抑月。
在本文背景下树叽,探測器的電子學(xué)獲得的能譜是一個(gè)離散的數(shù)據(jù),對(duì)于步驟二能譜的第道谦絮,其計(jì)數(shù)题诵,或者說事件,由步驟一的能譜中的所有道貢獻(xiàn)而來层皱。由于高斯分布的形狀性锭,主要是由第
道以及附近的若干道貢獻(xiàn)。若以高斯分布的
原則為標(biāo)準(zhǔn)叫胖,可以有效的去除無用的區(qū)間草冈,提升計(jì)算效率。
這里就以原則為標(biāo)準(zhǔn)瓮增,則步驟二能譜的第
道由步驟一能譜的第
道主要構(gòu)成疲陕,同時(shí),
其中的
部分钉赁,由第
道蹄殃、第
道至第
道貢獻(xiàn);
其中的
部分你踩,由第
道诅岩、第
道至第
道貢獻(xiàn)讳苦。其中,t表示
所占有的區(qū)間數(shù)量吩谦,或者是
所占有的區(qū)間數(shù)量鸳谜,這兩種情況所占有的區(qū)間數(shù)量是一樣的,因此統(tǒng)一用t表示式廷。
根據(jù)上述分析咐扭,步驟二能譜的第道計(jì)數(shù)
,可以通過上述步驟一的區(qū)間來計(jì)算滑废。
以矩陣形式表達(dá)更加簡明蝗肪。

能譜數(shù)據(jù)處理
中心化
中心化是針對(duì)樣本矩陣而言的,針對(duì)每一個(gè)維度蠕趁,將數(shù)據(jù)剪去期望薛闪。
在本文背景下,樣本數(shù)據(jù)的每一列代表一個(gè)維度俺陋,每一行代表一個(gè)樣本豁延。在求取期望時(shí),需要知道行數(shù)和列數(shù)腊状,在Eigen3下诱咏,獲取行數(shù)和列數(shù)的方法如下。
int numRows = SampleMatrix_.rows();
int numCols = SampleMatrix_.cols();
協(xié)方差矩陣
協(xié)方差矩陣由中心化的樣本矩陣計(jì)算得到缴挖。
協(xié)方差矩陣的圖形顯示可以通過“熱力圖”來完成胰苏。“熱力圖”實(shí)際上就是一個(gè)二維直方圖醇疼,使用色彩來表征每一個(gè)區(qū)間(bin)的計(jì)數(shù)值。Python下的Seaborn庫中有熱力圖的支持法焰,使用起來非常簡單秧荆,可參考[Jianshu Matplotlib, 2017],[Seanborn, Heatmap, 2019]埃仪。Seaborn是以Matplotlib為基礎(chǔ)的可視化庫乙濒,比Matplotlib使用更加簡潔方便。
相關(guān)系數(shù)矩陣
相關(guān)系數(shù)矩陣是用來描述兩個(gè)維度之間的關(guān)聯(lián)程度的卵蛉,雖然協(xié)方差矩陣的意義相同颁股,但是比其更加好用。因?yàn)橄嚓P(guān)系數(shù)忽略了維度自身的單位問題傻丝,避免因?yàn)橥粋€(gè)維度使用不同單位而導(dǎo)致的數(shù)值量級(jí)上的差異甘有。
編程方面,使用Eigen進(jìn)行矩陣計(jì)算葡缰,經(jīng)常會(huì)使用到矩陣初始化亏掀,比如制作一個(gè)全零矩陣忱反,用作最初始的相關(guān)系數(shù)矩陣,表示任意兩個(gè)維度之間均沒有關(guān)聯(lián)滤愕。
int numRows = CovarianceMatrix_.rows();
int numCols = CovarianceMatrix_.cols();
MatrixXd ones = MatrixXd::Zero(numRows,numCols);
特征值和特征向量
Eigen庫中的類SelfAdjointEigenSolver專門負(fù)責(zé)特征值和特征向量求解温算,具體參考[Eigen-EigenDeconposition, 2019]。
并不是任何矩陣都可以進(jìn)行特征分解的间影,在本文應(yīng)用背景下注竿,由樣本數(shù)據(jù)組成的矩陣只有很小概率可以進(jìn)行特征分解,而且魂贬,無論是在PCA還是因子分析中巩割,樣本矩陣都不是用來進(jìn)行特征分解的對(duì)象。
在PCA中随橘,進(jìn)行特征分解的矩陣是樣本矩陣的協(xié)方差矩陣喂分。協(xié)方差矩陣是一個(gè)對(duì)稱陣,而且所有元素都是實(shí)數(shù)机蔗,一般稱為實(shí)對(duì)稱矩陣蒲祈,這種矩陣的特點(diǎn)之一就是可以進(jìn)行特征分解。
MatrixXd ones = MatrixXd::Ones(3,3);
SelfAdjointEigenSolver<MatrixXd> es(ones);
cout << "The first eigenvector of the 3x3 matrix of ones is:"
<< endl << es.eigenvectors().col(1) << endl;
參考文獻(xiàn)
網(wǎng)站
[Eigen-EigenDeconposition, 2019] Eigen官方說明文檔萝嘁,特征分解類介紹 http://eigen.tuxfamily.org/dox/classEigen_1_1SelfAdjointEigenSolver.html#title17
[Jianshu Matplotlib, 2017] 用python-pandas作圖矩陣 http://www.reibang.com/p/47b54eb35eed
[Seanborn, Heatmap, 2019] Seaborn API for heatmap, http://seaborn.pydata.org/generated/seaborn.heatmap.html#seaborn.heatmap
論文
[Miller, E. A., 2015]: Miller, E. A. , Robinson, S. M. , Anderson, K. K. , Mccall, J. D. , Prinke, A. M. , & Webster, J. B. , et al. (2015). Adaptively reevaluated bayesian localization (arbl): a novel technique for radiological source localization. Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 784, 332-338.
[Penny, R. D., 2015]: Penny, R. D. , Crowley, T. M. , Gardner, B. M. , Mandell, M. J. , Guo, Y. , & Haas, E. B. , et al. (2015). Improved radiological/nuclear source localization in variable norm background: an mlem approach with segmentation data. Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 784, 319-325.
[Jianshu Matplotlib, 2017]: