shift的數(shù)據(jù)下載矩陣生成之路

要處理四個矩陣文件遮婶，分別為GSE109555 GSE136447 GSE36552 GSE66507

從ncbi網(wǎng)站上下載原始.sar文件政供，以及轉(zhuǎn)化壓縮成為.fastq.gz文件

在后臺處理利用nohup&或者screen

cat GSE109555.txt | while read i;

/data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 9999999999999999999 -O `pwd` $i && echo "**${i}.sra done**";

fastq-dump --split-3? ${i}.sra;

gzip?${i}.fastq

done

————————————生成count矩陣渴逻，要求比對率為60%以上————————————

GSE66507，是雙端測序文件精钮，長度為50bp

比對過程中出現(xiàn)問題

多是由于數(shù)據(jù)沒有下載完整造成的袍啡，此時需要重新下載

先是利用組里的index進行比對；結(jié)果還可以钾怔？大致有2/3比對率是大于百分之50的

GSE36552碱呼，是單端測序文件，長度為100bp

準確率較好宗侦，基本可以穩(wěn)定在55%以上

但是對于

GSE109555愚臀，是雙端測序文件，長度為150bp

以及

GSE136447凝垛，是雙端測序文件懊悯，長度為150bp

比對率較差蜓谋，都只有15%左右

更換比對文件Homo_sapiens.GRCh38.99.gtf;hg38_ercc.fa

STAR建立index文件

STAR --runMode genomeGenerate --genomeDir /data/shift/other/index_STAR --runThreadN 20 --genomeFastaFiles hg38_ercc.fa --sjdbGTFfile Homo_sapiens.GRCh38.99.2.gtf

出現(xiàn)問題：.fa和gtf文件里的chr1 和1之間有差異，求助解決

Solution: check the formatting of the GTF file. Most likely cause is the difference in chromosome naming between GTF and FASTA fill

確認文件中的開頭

grep -o -E "^\w+([-+.]\w+)*" Homo_sapiens.GRCh38.99.gtf|sort|uniq

將.gtf文件中加chr

#! /user/bin/bash echo "usage: change_vcf_name.sh a | r input_vcf_file? output_vcf_file" echo "a (add) : 添加chr字符到vcf文件中" echo "r (remove): 刪除vcf文件中的chr字符"if [ $1 = "a" ]then awk '{? ? ? ? if($0 !~ /^#/)? ? ? ? ? ? print "chr"$0;? ? ? ? else if(match($0,/(##contig= $3elif [ $1 = "r" ]then sed 's/##contig= $3elseecho "輸入的第一個參數(shù)不合適炭分，請輸入a或r桃焕。"fi

繼續(xù)建立index文件，而后進行比對：本次比對對數(shù)據(jù)進行了清洗

#!/bin/bash

cat /data/shift/other/GSE36552/GSE36552.txt|while read i;

fastp -i /data/shift/other/GSE36552/GSE36552_data/${i}.fastq.gz? -o /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz;

STAR? --runThreadN? 12? --genomeDir /data/shift/other/index_STAR? --readFilesCommand? zcat --readFilesIn? /data/shift/other/GSE36552/GSE36552_data_clean/${i}_clean.fastq.gz? --sjdbGTFfile /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf --outFileNamePrefix /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_ --outSAMtype BAM SortedByCoordinate;

featureCounts -p -t exon -g gene_id -a /data/shift/other/index_STAR/Homo_sapiens.GRCh38.99.2.gtf -o /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_counts.txt /data/shift/other/GSE36552/GSE36552_count.38.99/${i}_Aligned.sortedByCoord.out.bam;

done

但是比對結(jié)果并不盡如人意捧毛，比對成功率略低于組里文件：思考建立STAR index時是否應(yīng)該根據(jù)不同的序列長度增加參數(shù) --sjdbOverhang?reads長度的最大值減1观堂，默認是100

提出解決辦法：隨機選取一對文件fastq從中取出50bp(兩個文件對稱選取)的長度，與人進行比對

先對GSE136447嘗試

利用軟件seqkit

從Download - SeqKit - Ultrafast FASTA/Q kit (shenwei.me)下載軟件

操作方法指路：seqkit：序列梳理神器-統(tǒng)計呀忧、格式轉(zhuǎn)換师痕、長度篩選、質(zhì)量值轉(zhuǎn)換而账、翻譯胰坟、反向互補、抽樣泞辐、去重笔横、滑窗、拆分等30項全能..._劉永鑫Adam的博客-CSDN博客

報錯：seqkit無法處理.gz文件

報錯：更換剪切長度50咐吼，100都報錯

截取后文件分析

比對源文件

原文件就有點問題（心酸）

嘗試解決途徑吹缔，僅保留后50位數(shù)據(jù)，報錯不行

更改保留前100數(shù)據(jù)嘗試,比對成功

突然發(fā)現(xiàn)小時錯了/(ㄒoㄒ)/~~看比對率的文件應(yīng)該是锯茄，*_Log.final.out

GSE66507的比對率為80%以上

GSE36552的比對率為87%以上

現(xiàn)有問題GSE136447 featureCounts的assignment低

按照文章方式進行比對

利用hisat2

我知道為啥我的GSE109555一直都不好使了

原因一：有好多數(shù)據(jù)都沒下完整（可能是由于網(wǎng)絡(luò)原因）厢塘，這部分需要重新下載

原因二：文章中說不能直接用star，需要將每一個文件拆分后肌幽，將子文件做star

1.利用 zcat SRR8569907_2.fastq.gz | wc -l 與原文件比對（一個一個比啊晚碾，愿天堂沒有數(shù)據(jù)不完整）

2.下載 GSE109555_TrioSeq_DataInfo.txt.gz 作為輸入執(zhí)行

perl s01.Barcode_UMI_QC_per1w_V2.pl test_1.fq.gz test_2.fq.gz 不同的文件對應(yīng)不同應(yīng)當根據(jù)SRR對應(yīng)的GME查找 ./

打開文件夾以后里面對應(yīng)的是每個壓縮文件

而后就可以執(zhí)行star了！

85%還挺好牍颈，可以說是感動中國了/(ㄒoㄒ)/~~接下來就是等待~

最后編輯于：2022.07.20 14:53:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末迄薄，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子煮岁，更是在濱河造成了極大的恐慌讥蔽，老刑警劉巖，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件画机，死亡現(xiàn)場離奇詭異冶伞，居然都是意外死亡，警方通過查閱死者的電腦和手機步氏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門响禽，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事芋类÷⌒幔” “怎么了？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵侯繁，是天一觀的道長胖喳。經(jīng)常有香客問我，道長贮竟，這世上最難降的妖魔是什么丽焊？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮咕别，結(jié)果婚禮上技健，老公的妹妹穿的比我還像新娘。我一直安慰自己惰拱，他們只是感情好雌贱，可當我...
茶點故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著弓颈，像睡著了一般帽芽。火紅的嫁衣襯著肌膚如雪删掀。梳的紋絲不亂的頭發(fā)上翔冀，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音披泪，去河邊找鬼纤子。笑死，一個胖子當著我的面吹牛款票，可吹牛的內(nèi)容都是我干的控硼。我是一名探鬼主播，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼艾少，長吁一口氣：“原來是場噩夢啊……” “哼卡乾！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起缚够，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤幔妨，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后谍椅，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體误堡，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年雏吭，在試婚紗的時候發(fā)現(xiàn)自己被綠了锁施。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,965評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖悉抵，靈堂內(nèi)的尸體忽然破棺而出肩狂，到底是詐尸還是另有隱情，我是刑警寧澤姥饰，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布婚温，位于F島的核電站，受9級特大地震影響媳否，放射性物質(zhì)發(fā)生泄漏栅螟。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一篱竭、第九天我趴在偏房一處隱蔽的房頂上張望力图。院中可真熱鬧，春花似錦掺逼、人聲如沸吃媒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案吕喘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽赘那。三九已至，卻和暖如春氯质，著一層夾襖步出監(jiān)牢的瞬間募舟，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工闻察，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拱礁，地道東北人。一個月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓辕漂，卻偏偏與公主長得像呢灶，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子钉嘹，可洞房花燭夜當晚...
茶點故事閱讀 44,914評論 2贊 355

shift的數(shù)據(jù)下載矩陣生成之路

推薦閱讀更多精彩內(nèi)容