shift的數(shù)據(jù)下載矩陣生成之路

要處理四個矩陣文件遮婶,分別為GSE109555 GSE136447 GSE36552 GSE66507

從ncbi網(wǎng)站上下載原始.sar文件政供,以及轉(zhuǎn)化壓縮成為.fastq.gz文件

在后臺處理利用nohup&或者screen

cat GSE109555.txt | while read i;

do

/data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 9999999999999999999 -O `pwd` $i && echo "**${i}.sra done**";

fastq-dump --split-3? ${i}.sra;

gzip?${i}.fastq

done

————————————生成count矩陣渴逻,要求比對率為60%以上————————————

GSE66507,是雙端測序文件精钮,長度為50bp

比對過程中出現(xiàn)問題


多是由于數(shù)據(jù)沒有下載完整造成的袍啡,此時需要重新下載

先是利用組里的index進行比對;結(jié)果還可以钾怔?大致有2/3比對率是大于百分之50的


GSE36552碱呼,是單端測序文件,長度為100bp

準確率較好宗侦,基本可以穩(wěn)定在55%以上

但是對于

GSE109555愚臀,是雙端測序文件,長度為150bp

以及

GSE136447凝垛,是雙端測序文件懊悯,長度為150bp

比對率較差蜓谋,都只有15%左右


更換比對文件Homo_sapiens.GRCh38.99.gtf;hg38_ercc.fa

STAR建立index文件

STAR --runMode genomeGenerate --genomeDir /data/shift/other/index_STAR --runThreadN 20 --genomeFastaFiles hg38_ercc.fa --sjdbGTFfile Homo_sapiens.GRCh38.99.2.gtf

出現(xiàn)問題:.fa和gtf文件里的chr1 和1之間有差異,求助解決

Solution: check the formatting of the GTF file. Most likely cause is the difference in chromosome naming between GTF and FASTA fill

確認文件中的開頭

grep -o -E "^\w+([-+.]\w+)*" Homo_sapiens.GRCh38.99.gtf|sort|uniq

將.gtf文件中加chr

#! /user/bin/bash echo "usage: change_vcf_name.sh a | r input_vcf_file? output_vcf_file" echo "a (add) : 添加chr字符到vcf文件中" echo "r (remove): 刪除vcf文件中的chr字符"if [ $1 = "a" ]then awk '{? ? ? ? if($0 !~ /^#/)? ? ? ? ? ? print "chr"$0;? ? ? ? else if(match($0,/(##contig= $3elif [ $1 = "r" ]then sed 's/##contig= $3elseecho "輸入的第一個參數(shù)不合適炭分,請輸入a或r桃焕。"fi

繼續(xù)建立index文件,而后進行比對:本次比對對數(shù)據(jù)進行了清洗

#!/bin/bash

cat /data/shift/other/GSE36552/GSE36552.txt|while read i;

do

fastp -i /data/shift/other/GSE36552/GSE36552_data/${i}.fastq.gz? -o /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz;

STAR? --runThreadN? 12? --genomeDir /data/shift/other/index_STAR? --readFilesCommand? zcat --readFilesIn? /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz? --sjdbGTFfile /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf --outFileNamePrefix /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_ --outSAMtype BAM SortedByCoordinate;

featureCounts -p -t exon -g gene_id -a /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf -o /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_counts.txt /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_Aligned.sortedByCoord.out.bam;

done

但是比對結(jié)果并不盡如人意捧毛,比對成功率略低于組里文件:思考建立STAR index時是否應(yīng)該根據(jù)不同的序列長度增加參數(shù) --sjdbOverhang?reads長度的最大值減1观堂,默認是100


提出解決辦法:隨機選取一對文件fastq從中取出50bp(兩個文件對稱選取)的長度,與人進行比對

先對GSE136447嘗試

利用軟件seqkit

Download - SeqKit - Ultrafast FASTA/Q kit (shenwei.me)下載軟件

操作方法指路:seqkit:序列梳理神器-統(tǒng)計呀忧、格式轉(zhuǎn)換师痕、長度篩選、質(zhì)量值轉(zhuǎn)換而账、翻譯胰坟、反向互補、抽樣泞辐、去重笔横、滑窗、拆分等30項全能..._劉永鑫Adam的博客-CSDN博客

報錯:seqkit無法處理.gz文件

報錯:更換剪切長度50咐吼,100都報錯

截取后文件分析


比對源文件


原文件就有點問題(心酸)

嘗試解決途徑吹缔,僅保留后50位數(shù)據(jù),報錯不行

更改保留前100數(shù)據(jù)嘗試,比對成功



突然發(fā)現(xiàn)小時錯了/(ㄒoㄒ)/~~看比對率的文件應(yīng)該是锯茄,*_Log.final.out

GSE66507的比對率為80%以上

GSE36552的比對率為87%以上



現(xiàn)有問題GSE136447 featureCounts的assignment低

按照文章方式進行比對

利用hisat2



我知道為啥我的GSE109555一直都不好使了

原因一:有好多數(shù)據(jù)都沒下完整(可能是由于網(wǎng)絡(luò)原因)厢塘,這部分需要重新下載

原因二:文章中說不能直接用star,需要將每一個文件拆分后肌幽,將子文件做star

1.利用 zcat SRR8569907_2.fastq.gz | wc -l 與原文件比對(一個一個比啊晚碾,愿天堂沒有數(shù)據(jù)不完整)

2.下載 GSE109555_TrioSeq_DataInfo.txt.gz 作為輸入執(zhí)行

perl s01.Barcode_UMI_QC_per1w_V2.pl test_1.fq.gz test_2.fq.gz 不同的文件對應(yīng)不同應(yīng)當根據(jù)SRR對應(yīng)的GME查找 ./


打開文件夾以后里面對應(yīng)的是每個壓縮文件

而后就可以執(zhí)行star了!


85%還挺好牍颈,可以說是感動中國了/(ㄒoㄒ)/~~接下來就是等待~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末迄薄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子煮岁,更是在濱河造成了極大的恐慌讥蔽,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件画机,死亡現(xiàn)場離奇詭異冶伞,居然都是意外死亡,警方通過查閱死者的電腦和手機步氏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門响禽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事芋类÷⌒幔” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵侯繁,是天一觀的道長胖喳。 經(jīng)常有香客問我,道長贮竟,這世上最難降的妖魔是什么丽焊? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮咕别,結(jié)果婚禮上技健,老公的妹妹穿的比我還像新娘。我一直安慰自己惰拱,他們只是感情好雌贱,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著弓颈,像睡著了一般帽芽。 火紅的嫁衣襯著肌膚如雪删掀。 梳的紋絲不亂的頭發(fā)上翔冀,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音披泪,去河邊找鬼纤子。 笑死,一個胖子當著我的面吹牛款票,可吹牛的內(nèi)容都是我干的控硼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼艾少,長吁一口氣:“原來是場噩夢啊……” “哼卡乾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起缚够,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤幔妨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后谍椅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體误堡,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年雏吭,在試婚紗的時候發(fā)現(xiàn)自己被綠了锁施。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖悉抵,靈堂內(nèi)的尸體忽然破棺而出肩狂,到底是詐尸還是另有隱情,我是刑警寧澤姥饰,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布婚温,位于F島的核電站,受9級特大地震影響媳否,放射性物質(zhì)發(fā)生泄漏栅螟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一篱竭、第九天 我趴在偏房一處隱蔽的房頂上張望力图。 院中可真熱鬧,春花似錦掺逼、人聲如沸吃媒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赘那。三九已至,卻和暖如春氯质,著一層夾襖步出監(jiān)牢的瞬間募舟,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工闻察, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拱礁,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓辕漂,卻偏偏與公主長得像呢灶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子钉嘹,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容