發(fā)現(xiàn)Perl的一個特殊功能——循環(huán)匹配

在李恒的github博客 On the definition of sequence identity 當(dāng)中看到這樣一個Perl單行代碼:

$ perl -ane 'if(/NM:i:(\d+)/){$n=$1;$l=0;$l+=$1 while/(\d+)[MID]/g;print(($l-$n)/$l,"\n")}'

這行代碼的目的是為了計算SAM文件中每條記錄BLAST identity

BLAST identity是根據(jù)你比對到的堿基除去比對所涉及到的columns數(shù)目,換句話來說就是比對涉及到所有的堿基數(shù)目

例如這樣的雙序列比對:

Ref+:  1 CCAGTGTGGCCGATaCCCcagGTtgGC-ACGCATCGTTGCCTTGGTAAGC 49
         |||||||||||||| |||   ||  || ||||||||||||||||||||||
Qry+:  1 CCAGTGTGGCCGATgCCC---GT--GCtACGCATCGTTGCCTTGGTAAGC 45

它們的BLAST identity就是43/50=86%

那么要計算SAM文件中每條reads的BLAST identity进鸠,總長可以通過疊加CIGAR中對應(yīng)的M/I/D的數(shù)目得到腐缤,比對到的堿基數(shù)目等于總長減去NMtag(比對不上的堿基位置的標(biāo)記)

SAM文件中的NMtag

李恒的這行代碼中有一部分一開始沒有讀懂述吸,就是下圖紅框中的那部分:

其實這是一種簡寫方式壁却,正規(guī)完整且更容易讀懂的形式可以寫成下面這樣:

# 這里為了更好看巧婶,添加了適當(dāng)?shù)膿Q行和縮進(jìn)

$ perl -ane \
'if(/NM:i:(\d+)/){
    $n=$1;
    $l=0;
    while(/(\d+)[MID]/g){
        $l+=$1;
    }
    print(($l-$n)/$l,"\n");
}
'

while(/(\d+)[MID]/g)中的正則表達(dá)式/(\d+)[MID]/g缸血,引起了我極大的好奇:它是在正則表達(dá)式后面添加了一個g字符物蝙,即開啟了全局匹配,又由于是在while( )中進(jìn)行的正則匹配蚜迅,等于是開啟了循環(huán)匹配舵匾,即對于CIGAR字符串18M3D22M,正則表達(dá)式/(\d+)[MID]/g谁不,先會匹配上18M坐梯,然后會匹配上3D,最后匹配上22M

很有意思的用法


參考資料:

(1) Heng Li's blog: On the definition of sequence identity

(2) 【簡書】生信雜談:怎樣定義sequences比對的相似度刹帕?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末烛缔,一起剝皮案震驚了整個濱河市馏段,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌践瓷,老刑警劉巖院喜,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異晕翠,居然都是意外死亡喷舀,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進(jìn)店門淋肾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硫麻,“玉大人,你說我怎么就攤上這事樊卓∧美ⅲ” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵碌尔,是天一觀的道長浇辜。 經(jīng)常有香客問我,道長唾戚,這世上最難降的妖魔是什么柳洋? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮叹坦,結(jié)果婚禮上熊镣,老公的妹妹穿的比我還像新娘。我一直安慰自己募书,他們只是感情好绪囱,可當(dāng)我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著莹捡,像睡著了一般鬼吵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上道盏,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天而柑,我揣著相機(jī)與錄音文捶,去河邊找鬼荷逞。 笑死,一個胖子當(dāng)著我的面吹牛粹排,可吹牛的內(nèi)容都是我干的种远。 我是一名探鬼主播,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼顽耳,長吁一口氣:“原來是場噩夢啊……” “哼坠敷!你這毒婦竟也來了妙同?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤膝迎,失蹤者是張志新(化名)和其女友劉穎粥帚,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體限次,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡芒涡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了卖漫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片费尽。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖羊始,靈堂內(nèi)的尸體忽然破棺而出旱幼,到底是詐尸還是另有隱情,我是刑警寧澤突委,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布柏卤,位于F島的核電站,受9級特大地震影響鸯两,放射性物質(zhì)發(fā)生泄漏闷旧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一钧唐、第九天 我趴在偏房一處隱蔽的房頂上張望忙灼。 院中可真熱鬧,春花似錦钝侠、人聲如沸该园。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽里初。三九已至,卻和暖如春忽舟,著一層夾襖步出監(jiān)牢的瞬間双妨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工叮阅, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留刁品,地道東北人。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓浩姥,卻偏偏與公主長得像挑随,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子勒叠,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容