htslib 的使用( C++ 處理BAM文件)

背景

在處理NGS 數(shù)據(jù)時,尤其是突變的檢測。我們需要對bam 文件進(jìn)行讀寫。 目前有相對方便的庫 pysam 和 htsjdk 桩卵,這兩個庫提供的api 可以方便python 和java 讀寫,操作BAM倍宾。

隨著測序深度的提高雏节,尤其是UMI技術(shù)的普及,上萬層的測序數(shù)據(jù)下高职,我們需要提高分析軟件的效率钩乍,C++是比較好的選擇。

C++ 中可以讀寫B(tài)AM 的庫有 htslib 怔锌、bamtools寥粹、Seqan3 等变过。Seqan3的文檔信息比較全,但是我使用文檔中的測試案例發(fā)現(xiàn)排作,速度很慢(也許是我打開方式有問題?)亚情;bamtools 和 htslib 的效率挺好的妄痪,但是都缺乏詳細(xì)的文檔,用起來真的頭大楞件。

本文衫生,粗略的學(xué)習(xí)了htslib sam.h sam.c 部分的代碼,以及參考了陳師傅的gencore 代碼土浸,總結(jié)了一些htslib的使用方法罪针。(pileup 部分好難,略過~)

C++ 代碼

  • 獲得Cigar

    /*
    @discussion In the CIGAR array, each element is a 32-bit integer. The
     lower 4 bits gives a CIGAR operation and the higher 28 bits keep the
     length of a CIGAR.
    */
    
    string getCigar(const bam1_t *b) {
        uint32_t *data = (uint32_t *)bam_get_cigar(b);
        int cigarNum = b->core.n_cigar;
        stringstream ss;
        for(int i=0; i<cigarNum; i++) {
            uint32_t val = data[i];
            char op = bam_cigar_opchr(val);
            uint32_t len = bam_cigar_oplen(val);
            ss << len << op;
        }
        return ss.str();
    }
    
  • 獲得序列和質(zhì)量值

    //Each base is encoded in 4 bits: 1 for A, 2 for C, 4 for G, 8 for T and 15 for N.
    char fourbits2base(uint8_t val) {
        switch(val) {
            case 1:
                return 'A';
            case 2:
                return 'C';
            case 4:
                return 'G';
            case 8:
                return 'T';
            case 15:
                return 'N';
            default:
                cerr << "ERROR: Wrong base with value "<< (int)val << endl ;
                return 'N';
        }
    }
    
    // get seq 序列的信息記錄在8bit 的數(shù)據(jù)結(jié)構(gòu)中黄伊,前4bit 是前面的堿基泪酱,后4bit 是后面的堿基
    string getSeq(const bam1_t *b) {
        uint8_t *data = bam_get_seq(b);
        int len = b->core.l_qseq;
        string s(len, '\0');
        for(int i=0; i<len; i++) {
            char base;
            if(i%2 == 1)
                base = fourbits2base(data[i/2] & 0xF); 
            else
                base = fourbits2base((data[i/2]>>4) & 0xF);
            s[i] = base;
        }
        return s;
    }
    
    // get seq quality
    string getQual(const bam1_t *b) {
        uint8_t *data = bam_get_qual(b);
        int len = b->core.l_qseq;
        string s(len, '\0');
        for(int i=0; i<len; i++) {
            s[i] = (char)(data[i] + 33); // 轉(zhuǎn)換成打印的ascci
        }
        return s;
    }
    
  • 讀取完整BAM

    int main(int argc,char *argv[])
    {
        if(argc < 2) {
            cerr << "need bam path";
            return -1;
        }
        samFile *bam_in = sam_open(argv[1],"r"); // open bam file
        bam_hdr_t *bam_header = sam_hdr_read(bam_in); // read header
        bam1_t *aln = NULL;
        aln = bam_init1(); //initialize an alignment
        
    //return >= 0 on successfully reading a new record, -1 on end of stream, < -1 on error
        while (sam_read1(bam_in,bam_header,aln) >= 0) 
        {
            int pos = aln->core.pos ;
            string chr = "*";
            if (aln->core.tid != -1) // 存在無法比對到基因組的reads
                chr = bam_header->target_name[aln->core.tid]; // config name(chromosome)            
            string queryname = bam_get_qname(aln);
            string cigar = getCigar(aln);
            string seq = getSeq(aln);
            string qual = getQual(aln);
    
            cout << "QueryName: " << queryname << '\n' 
                << "Positon: " << chr << '\t' <<  pos <<'\n'
                << "Cigar: " << cigar << '\n'
                << "Seq: " << seq << '\n'
                << "Qual: " << qual << '\n';
            
        }
    
        bam_destroy1(aln); // 回收資源
        bam_hdr_destroy(bam_header);
        sam_close(bam_in);
        cout << "Finshed!\n";
        return 0;
    }
    
  • 讀取選定區(qū)域的BAM

    int main(int argc,char *argv[])
    {
        if(argc < 3) {
            cerr << "need bam path; chrom: start pos-end pos";
            return -1;
        }
        samFile *bam_in = sam_open(argv[1],"r"); // open bam file
        hts_idx_t *bam_index = sam_index_load(bam_in,argv[1]); //load index 
        bam_hdr_t *bam_header = sam_hdr_read(bam_in); // read header
        bam1_t *aln = NULL;
        aln = bam_init1(); //initialize an alignment
    /*
    Regions are parsed by hts_parse_reg(), and take one of the following forms:
    region          | Outputs
    --------------- | -------------
    REF             | All reads with RNAME REF
    REF:            | All reads with RNAME REF
    REF:START       | Reads with RNAME REF overlapping START to end of REF
    REF:-END        | Reads with RNAME REF overlapping start of REF to END
    REF:START-END   | Reads with RNAME REF overlapping START to END
    .               | All reads from the start of the file
    *               | Unmapped reads at the end of the file (RNAME '*' in SAM)
    */
            string regin = argv[2]; 
           
        hts_itr_t *iter = sam_itr_querys(bam_index,bam_header,regin);
        if(!iter) cerr << "invalid regin\n";
       // while (sam_read1(bam_in,bam_header,aln) >= 0)
        while (sam_itr_next(bam_in, iter, aln) >= 0)
        {
            int pos = aln->core.pos ;
            string chr = "*";
            if (aln->core.tid != -1)
                chr = bam_header->target_name[aln->core.tid]; // config name(chromosome)            
            string queryname = bam_get_qname(aln);
            string cigar = getCigar(aln);
            string seq = getSeq(aln);
            string qual = getQual(aln);
            string md = getAux(aln,"MD");
    
            //int64_t newPos = pos - 5;
            cout << "QueryName: " << queryname << '\n' 
                << "Positon: " <<aln->core.tid << '\t' << chr << '\t' <<  pos <<'\n'
                << "Cigar: " << cigar << '\n'
                << md << '\n'
                << "Seq: " << seq << '\n'
                << "Qual: " << qual << '\n';
            
        }
        sam_itr_destroy(iter) ;// free iter
        bam_destroy1(aln);
        bam_hdr_destroy(bam_header);
        sam_close(bam_in);
        cout << "Finshed!\n";
        return 0;
    }
    
    
  • 輔助字段的讀取

    string getAux(const bam1_t *b,const char tag[2])
    {
        kstring_t res = KS_INITIALIZE;    // 需要初始化
        if(bam_aux_get_str(b,tag,&res) == 1) //kstring的string buffer 沒有\(zhòng)0終止
        {
            int len = ks_len(&res);
            char *ks_s = ks_str(&res);
            string s(len, '\0');
            for (int i = 0;i<len;i++ ){
                s[i] = ks_s[i];
            }
            ks_free(&res); // 釋放資源
            return s;
        }    
        else 
        {
            cerr << "no tag :" << tag << '\n';
            ks_free(&res);
            return "";
        }
        
    }
    
    int main()
    {
    。还最。墓阀。
        string md = getAux(aln,"MD");
    。拓轻。斯撮。
    }
    
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市扶叉,隨后出現(xiàn)的幾起案子勿锅,更是在濱河造成了極大的恐慌,老刑警劉巖枣氧,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件溢十,死亡現(xiàn)場離奇詭異,居然都是意外死亡达吞,警方通過查閱死者的電腦和手機(jī)茶宵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來宗挥,“玉大人乌庶,你說我怎么就攤上這事∑豕ⅲ” “怎么了瞒大?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長搪桂。 經(jīng)常有香客問我透敌,道長盯滚,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任酗电,我火速辦了婚禮魄藕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘撵术。我一直安慰自己晓猛,他們只是感情好蠢挡,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布春塌。 她就那樣靜靜地躺著儡毕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪划滋。 梳的紋絲不亂的頭發(fā)上饵筑,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天,我揣著相機(jī)與錄音处坪,去河邊找鬼根资。 笑死,一個胖子當(dāng)著我的面吹牛同窘,可吹牛的內(nèi)容都是我干的嫂冻。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼塞椎,長吁一口氣:“原來是場噩夢啊……” “哼桨仿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起案狠,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤服傍,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后骂铁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吹零,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年拉庵,在試婚紗的時候發(fā)現(xiàn)自己被綠了灿椅。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡钞支,死狀恐怖茫蛹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情烁挟,我是刑警寧澤婴洼,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站撼嗓,受9級特大地震影響柬采,放射性物質(zhì)發(fā)生泄漏欢唾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一粉捻、第九天 我趴在偏房一處隱蔽的房頂上張望礁遣。 院中可真熱鬧,春花似錦肩刃、人聲如沸祟霍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽浅碾。三九已至大州,卻和暖如春续语,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背厦画。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工疮茄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人根暑。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓力试,卻偏偏與公主長得像,于是被迫代替她去往敵國和親排嫌。 傳聞我的和親對象是個殘疾皇子畸裳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 一、簡介 Samtools是一個用于操作sam和bam格式文件的應(yīng)用程序集合淳地,具有眾多的功能怖糊。 它從SAM(序列比...
    Davey1220閱讀 20,536評論 2 33
  • BAM/SAM文件的一些小知識 前言 如果不是在陳老師這讀博,然后開始折騰BAM/SAM文件颇象,我估計(jì)這輩子都不會了...
    zhym1992閱讀 27,243評論 0 29
  • bwa - Burrows-Wheeler Alignment Tool #1. 介紹 BWA 是一個能將差異較小...
    JeremyL閱讀 5,198評論 0 4
  • wes定義: 全外顯子組測序伍伤,是利用目標(biāo)序列捕獲技術(shù), 將全基因組編碼基因外顯子區(qū)域的DNA捕獲并富集后遣钳,進(jìn)行高通...
    鳳凰_0949閱讀 4,311評論 0 7
  • 本文鏈接:https://blog.csdn.net/genome_denovo/article/details/...
    __一蓑煙雨__閱讀 634評論 0 1