【原創(chuàng)】hisat2-samtools-htseq轉(zhuǎn)錄組分析記錄2018-10-08-09-11 hisat2-samtools-htseq

hisat2 -t -x ~/rna_seq_analysis/reference/index/hg19/genome -1 ~/rna_seq_analysis/fastq/SRR5894154_1.fastq.gz -2 ~/rna_seq_analysis/fastq/SRR5894154_2.fastq.gz -S ~/rna_seq_analysis/aligned/SRR5894154.sam

之前出問題好像是因?yàn)樯倏樟丝崭瘛?/p>

比對結(jié)果

http://blog.sciencenet.cn/blog-3334560-1078097.html

得到的sam格式文件40多G璧眠。歧譬。渔肩。塘秦。

我哭了枷餐。。界拦。

下一步把sam文件轉(zhuǎn)化為bam文件轿腺，用samtools

SAM格式是目前用來存放大量核酸比對結(jié)果信息的通用格式，也是人類能夠“直接”閱讀的格式類型当编，而BAM和CRAM是為了方便傳輸届慈，降低存儲壓力將SAM進(jìn)行壓縮得到的格式形式。?注，BAM格式必須要建立索引才能快速讀取指定位置的信息金顿。

# 1.3版本前

samtools view -bS bwa.sam > bwa.bam

samtools sort bwa.bam > bwa_sorted.bam

samtools index bwa_sorted.bam

# 1.3版本后

samtools sort bwa.sam > bwa_sorted.bam

samtools index bwa_sorted.bam

1. 格式轉(zhuǎn)換

2. 排序

3. 索引

大于號：將一條命令執(zhí)行結(jié)果（標(biāo)準(zhǔn)輸出臊泌，或者錯誤輸出，本來都要打印到屏幕上面的）重定向其它輸出設(shè)備（文件串绩，打開文件操作符缺虐，或打印機(jī)等等）

1. samtools view -S SRR5894154.sam -b > SRR5894154.bam? ?

bam文件不到8g，于是趕緊把sam文件刪了～

2.?samtools sort SRR5894154.bam > SRR5894154_sorted.bam

3. samtools index SRR5894154_sorted.bam

//雖然我不知道第三步有什么用礁凡。高氮。。

如果你要比較同一個樣本(within-sample)不同基因之間的表達(dá)情況顷牌，你就需要考慮到轉(zhuǎn)錄本長度剪芍，因?yàn)檗D(zhuǎn)錄本越長，那么檢測的片段也會更多窟蓝，直接比較等于讓小孩和大人進(jìn)行賽跑罪裹。如果你是比較不同樣本（across sample）同一個基因的表達(dá)情況，雖然不必在意轉(zhuǎn)錄本長度运挫，但是你要考慮到測序深度（sequence depth)状共，畢竟測序深度越高，檢測到的概率越大谁帕。除了這兩個因素外峡继，你還需要考慮GC%所導(dǎo)致的偏差，以及測序儀器的系統(tǒng)偏差匈挖。目前對read count標(biāo)準(zhǔn)化的算法有RPKM（SE）, FPKM（PE）碾牌，TPM, TMM等，不同算法之間的差異與換算方法已經(jīng)有文章進(jìn)行整理和吐槽了儡循。

在轉(zhuǎn)錄本水平上舶吗，一般常用工具為Cufflinks和它的繼任者StringTie， eXpress择膝。這些軟件要處理的難題就時轉(zhuǎn)錄本亞型（isoforms）之間通常是有重疊的誓琼，當(dāng)二代測序讀長低于轉(zhuǎn)錄本長度時，如何進(jìn)行區(qū)分调榄？這些工具大多采用的都是expectation maximization（EM）踊赠。好在我們有三代測序。上述軟件都是alignment-based每庆，目前許多alignment-free軟件筐带，如kallisto, silfish, salmon，能夠省去比對這一步缤灵，直接得到read count伦籍，在運(yùn)行效率上更高蓝晒。不過最近一篇文獻(xiàn)[1]指出這類方法在估計豐度時存在樣本特異性和讀長偏差。

-f bam/sam：指定輸入文件格式帖鸦，默認(rèn)SAM

-r name/pos: 你需要利用samtool sort對數(shù)據(jù)根據(jù)read name或者位置進(jìn)行排序芝薇，默認(rèn)是name

-s yes/no/reverse: 數(shù)據(jù)是否來自于strand-specific assay。DNA是雙鏈的作儿，所以需要判斷到底來自于哪條鏈洛二。如果選擇了no，那么每一條read都會跟正義鏈和反義鏈進(jìn)行比較攻锰。默認(rèn)的yes對于雙端測序表示第一個read都在同一個鏈上晾嘶，第二個read則在另一條鏈上。

-a 最低質(zhì)量娶吞，剔除低于閾值的read

-m 模式 union（默認(rèn)）, intersection-strict and intersection-nonempty垒迂。一般而言就用默認(rèn)的，作者也是這樣認(rèn)為的妒蛇。

-i id attribute: 在GTF文件的最后一欄里机断，會有這個基因的多個命名方式（如下）， RNA-Seq數(shù)據(jù)分析常用的是gene_id绣夺，當(dāng)然你可以寫一個腳本替換成其他命名方式吏奸。

gene_id "ENSG00000223972.5_2"; transcript_id "ENST00000456328.2_1"; gene_type "transcribed_unprocessed_pseudogene"; gene_name "DDX11L1"; transcript_type "processed_transcript"; transcript_name "DDX11L1-002"; exon_number 2; exon_id "ENSE00003582793.1_1"; level 2;.

htseq-count -s no?-r pos? -f bam ~/rna_seq_analysis/aligned/SRR5894154_sorted.bam ~/rna_seq_analysis/human_genome/gencode.v28lift37.annotation.sorted.gff3 > ~/rna_seq_analysis/aligned/SRR5894154.count

最后編輯于：2018.10.14 00:24:57

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市陶耍，隨后出現(xiàn)的幾起案子苦丁，更是在濱河造成了極大的恐慌，老刑警劉巖物臂，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異产上，居然都是意外死亡棵磷，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門晋涣，熙熙樓的掌柜王于貴愁眉苦臉地迎上來仪媒，“玉大人，你說我怎么就攤上這事谢鹊∷惴裕” “怎么了？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵佃扼，是天一觀的道長偎巢。經(jīng)常有香客問我，道長兼耀，這世上最難降的妖魔是什么压昼？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任求冷，我火速辦了婚禮，結(jié)果婚禮上窍霞，老公的妹妹穿的比我還像新娘匠题。我一直安慰自己，他們只是感情好但金，可當(dāng)我...
茶點(diǎn)故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布韭山。她就那樣靜靜地躺著，像睡著了一般冷溃。火紅的嫁衣襯著肌膚如雪钱磅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天秃诵，我揣著相機(jī)與錄音续搀，去河邊找鬼。笑死菠净，一個胖子當(dāng)著我的面吹牛禁舷，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播毅往，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼牵咙，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了攀唯？” 一聲冷哼從身側(cè)響起洁桌，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎侯嘀，沒想到半個月后另凌，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡戒幔，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年吠谢，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片诗茎。...
茶點(diǎn)故事閱讀 38,137評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡工坊，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出敢订，到底是詐尸還是另有隱情王污，我是刑警寧澤，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布楚午，位于F島的核電站昭齐，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏矾柜。R本人自食惡果不足惜司浪，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一泊业、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧啊易，春花似錦吁伺、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案篮奄，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至割去，卻和暖如春窟却，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背呻逆。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工夸赫，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人咖城。一個月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓茬腿，卻偏偏與公主長得像，于是被迫代替她去往敵國和親宜雀。傳聞我的和親對象是個殘疾皇子切平，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,901評論 2贊 345

【原創(chuàng)】hisat2-samtools-htseq轉(zhuǎn)錄組分析記錄2018-10-08-09-11 hisat2-samtools-htseq

推薦閱讀更多精彩內(nèi)容