遇到了一次colorspace的測序數(shù)據(jù)

目前已經(jīng)是我接觸生物信息學(xué)的第四年了稻轨,這里的內(nèi)容由于學(xué)業(yè)壓力也很久沒有更新线欲,現(xiàn)在可以趁著寒假的空閑時(shí)間寫一寫最近遇到的東西圾旨。我通常處理的都是RNA-seq數(shù)據(jù),也全是來自illumina測序平臺(tái)(自認(rèn)為擅長RNA測序數(shù)據(jù)的個(gè)性化分析)谣旁,但是最近學(xué)習(xí)ChIP-seq的時(shí)候昔头,碰巧下載了一組SOLiD colorspace format格式的數(shù)據(jù)驮吱。由于一開始沒有注意到這個(gè)問題拇砰,導(dǎo)致后面遇到了一系列的問題,非常多的報(bào)錯(cuò)甥材,這里記錄一下我的解決方案芝发。

一、下載數(shù)據(jù)

這是一組果蠅的ChIP-seq數(shù)據(jù)悟耘,只下載了6個(gè)原始文件管行,包括野生型和突變型果蠅的兩種抗體的ChIP,以及各自的Input,非常簡單极颓。使用aspera在ENA數(shù)據(jù)庫下載數(shù)據(jù)闰围。

$ ascp -l 100M -P 33001 -QT -k 1 -i 
  /這里是conda安裝的位置/etc/asperaweb_id_dsa.openssh 
  era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR144/008/SRR1449908/SRR1449908.fastq.gz ./01_rawdata &
$ md5sum ./01_rawdata/*.fastq.gz

二忠售、數(shù)據(jù)質(zhì)量檢測

使用fastqc和multiqc進(jìn)行質(zhì)量檢測。

$ fastqc  ./01_rawdata/*.fastq.gz  -t 4  -o ./03_fastqc  -f fastq  &
$ multiqc ./03_fastqc  -o ./03_multiqc  &

到這一步都是一切正常睬捶,只是質(zhì)量看上去...有點(diǎn)低积仗,不過也能理解,畢竟是好多年前的數(shù)據(jù)了。



可以注意到序列中存在SOLID Adapter贩耐,至于這個(gè)adapter是什么更鲁,我也不知道樊拓。


三赴叹、數(shù)據(jù)過濾

本來想使用trim_galore進(jìn)行過濾蚕冬。

$ trim_galore  -j 4  -q 20  --phred33  --length 25  -o ./04_cleandata
  ./01_rawdata/*.fastq.gz  &

但是報(bào)錯(cuò)了锨苏。

File seems to be in SOLiD colorspace format which is not supported by Trim Galore (sequence is: 'T20103321021332323020223030003323033200023300033032')! Please use Cutadapt on colorspace files separately and check its documentation!

趕緊回去看原始的fastq文件驯击,結(jié)果使人震驚:


啊這...

這種詭異的序列還是第一次遇到择吊。在網(wǎng)上查了查所森,原來是colorspace數(shù)據(jù)掩幢,和我們通常看到的basespace不同度硝。并且查到了一篇網(wǎng)上的文章:


(原來別人也遇到過,遇到這么少見的數(shù)據(jù)類型是不是說明我也算是身經(jīng)百戰(zhàn)了掀序?)

現(xiàn)在我們換成cutadapt進(jìn)行數(shù)據(jù)過濾折晦。其中有一部分專門的colorspace選項(xiàng):

-c, --colorspace:Enable colorspace mode: Also trim the color that is adjacent to the found adapter
--maq/--bwa:MAQ- and BWA-compatible colorspace output. This enables -c, -d, -t, --strip-f3 and -y '/1'. Enables colorspace mode (-c), double-encoding (-d), primer trimming (-t)
--no-zero-cap:不要將colorspace數(shù)據(jù)中的負(fù)質(zhì)量值更改為零。colorspace讀數(shù)的質(zhì)量值有時(shí)是負(fù)的,BWA和Bowtie無法處理锅论,默認(rèn)情況下Cutadapt將colorspace數(shù)據(jù)中的負(fù)質(zhì)量值轉(zhuǎn)換為0剔猿。
--format=sra-fastq:當(dāng)使用來自sra-toolkit包的FASTQ-dump程序?qū)⑦@些.sra文件轉(zhuǎn)換為FASTQ格式時(shí),colorspace序列將在每次開始時(shí)獲得額外的質(zhì)量值慌闭,使質(zhì)量值數(shù)目比序列數(shù)多1豺妓。為了讓cutadapt忽略額外的質(zhì)量,在命令行中添加--format=sra-fastq耕魄。

我嘗試了好幾次cutadapt蔼两,最后確定了具體的參數(shù)。

$ cutadapt --bwa -a 330201030313112312 -q 20 -m 25 --max-n 2 
  --format=sra-fastq 01_rawdata/SRR1449908.fastq.gz 
  -o 04_cleandata/SRR1449908_clean.fastq.gz  &

開始的時(shí)候我沒有加-a渐北,因?yàn)椴恢繿dapter是什么破托。第一次嘗試發(fā)現(xiàn)colorspace不支持-j。第二次用了-c和-t選項(xiàng)敌呈,而沒有用--bwa。實(shí)際證明也是可以的。通過這一步之后再fastqc,確定了接頭的序列是330201030313112312卑吭。然后重新cutadapt唉窃,并加上-a件已。但是由于我沒有發(fā)現(xiàn)它的堿基質(zhì)量行似乎多了一位,導(dǎo)致后面運(yùn)行bowtie的時(shí)候報(bào)錯(cuò)连茧,查看文檔后加上了--format=sra-fastq虐唠。過濾后的數(shù)據(jù)再跑一次fastqc和multiqc溉愁。經(jīng)過來來回回好幾次cutadapt家肯,才得到了看上去似乎可以的過濾后數(shù)據(jù)娘汞。

文檔鏈接:https://cutadapt.readthedocs.io/en/v1.18/colorspace.html

四、比對

從網(wǎng)上查到bowtie支持colorspace數(shù)據(jù)狸捅,那我們就用bowtie進(jìn)行比對吧。

# 建立索引
$ mkdir -p 02_index/bowtie_dm
$ bowtie-build  --threads 4  -f 
  00_annotation/Drosophila_melanogaster.BDGP6.32.dna.toplevel.fa  
  02_index/bowtie_dm/bowtie_dm  &

# 比對
$ gzip -d 04_cleandata/*.gz &
$ bowtie  -p 4  -x  02_index/bowtie_dm/bowtie_dm  
  ./04_cleandata/SRR1449909_clean.fastq  -S ./06_bowtie/SRR1449909.sam  
  2>>./log/bowtie.log  &

比對完一看戴质,reads that failed to align 99.98%...
我又去網(wǎng)上查输莺,發(fā)現(xiàn)bowtie處理colorspace數(shù)據(jù)需要加-C/--color啰脚,索引也是需要單獨(dú)構(gòu)建的。但是露氮,對bowtie-build加上-C選項(xiàng)后三妈,再次報(bào)錯(cuò)了涧窒。打印出了Usage,好像沒有-C這個(gè)參數(shù)。這就有點(diǎn)使人疑惑了金闽。我猜可能是版本問題,這個(gè)1.3.1版本可能不支持-C淘菩。我查看了bowtie的更新日志,找到了最后一次提到-C的版本是0.12.3阿蝶。conda似乎無法給bowtie降級(jí)到0.12.3,所以我直接從瀏覽器把它下載下來了初澎。

$ mkdir -p 02_index/bowtie_c
$ ./bowtie-0.12.3/bowtie-build  -C  -f  
  00_annotation/Drosophila_melanogaster.BDGP6.32.dna.toplevel.fa  
  02_index/bowtie_c/bowtie_c  & 
$ ./bowtie-0.12.3/bowtie  -p 4  -C  02_index/bowtie_c/bowtie_c  
  ./04_cleandata/SRR1449908_clean.fastq  -S ./06_bowtie/SRR1449908.sam  
  2>>./log/bowtie.log  & 

最后得到了結(jié)果匕积,reads with at least one reported alignment: 18051482 (72.09%)帆调,好像也還行蝉绷。接下來就是變成bam垂攘,然后拿去跑macs2了铝侵。

$ ls ./06_bowtie/*.sam | while read id ; do (samtools sort  -@ 4  
  -O bam  -o ./06_bowtie/$(basename $id ".sam").bam  $id) ; done  &
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末孝鹊,一起剝皮案震驚了整個(gè)濱河市松捉,隨后出現(xiàn)的幾起案子营密,更是在濱河造成了極大的恐慌惨缆,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異始鱼,居然都是意外死亡柏腻,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門掀亩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人捉超,你說我怎么就攤上這事堪簿。” “怎么了魔市?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵喻鳄,是天一觀的道長泛豪。 經(jīng)常有香客問我渊涝,道長缆娃,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮电禀,結(jié)果婚禮上贞铣,老公的妹妹穿的比我還像新娘。我一直安慰自己摧扇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般取劫。 火紅的嫁衣襯著肌膚如雪善炫。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天静汤,我揣著相機(jī)與錄音虫给,去河邊找鬼侠碧。 笑死,一個(gè)胖子當(dāng)著我的面吹牛药蜻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蒿往,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瓤漏,長吁一口氣:“原來是場噩夢啊……” “哼颊埃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起饥漫,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤庸队,失蹤者是張志新(化名)和其女友劉穎彻消,沒想到半個(gè)月后宙拉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡煌贴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年牛郑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了敬鬓。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖希痴,靈堂內(nèi)的尸體忽然破棺而出砌创,到底是詐尸還是另有隱情,我是刑警寧澤嫩实,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布宰缤,位于F島的核電站晃洒,受9級(jí)特大地震影響慨灭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜球及,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一氧骤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧吃引,春花似錦筹陵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至鹅心,卻和暖如春吕粗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背旭愧。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工颅筋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留议泵,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像谐宙,于是被迫代替她去往敵國和親凡蜻。 傳聞我的和親對象是個(gè)殘疾皇子兑巾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容