1128 轉(zhuǎn)錄組分析 B站up主天馬行空的坦克兵 (講解清晰易懂)
09 ?刪除conda下的某一款軟件 刪除名為rnaseq1環(huán)境下的比對軟件STAR:remove -n rnaseq STAR ?????????Ctrl+C停止運(yùn)行程序 ?(刪前刪后注意查看,查看有兩種,去所屬環(huán)境刪除與直接指定環(huán)境用命令刪除)
刪除名為rnaseq1環(huán)境下所有軟件: remove -n rnaseq --all
?
10 ?安裝mamba - conda的左右手
conda網(wǎng)站上搜索mamba缴挖,第一條(下載量最多)匹配出來的mamba,點(diǎn)進(jìn)去忆嗜,根據(jù)命令安裝。
mamba是所有環(huán)境都可能會(huì)用到的軟件崎岂,并且對整體環(huán)境無干擾捆毫,所以安裝在base環(huán)境。
由于mamba基于conda而產(chǎn)生的冲甘,所以使用時(shí)必須是在conda激活的環(huán)境下绩卤。
mamba安裝其他軟件報(bào)錯(cuò)命令:不能打開下載文件,沒有這個(gè)文件夾或者路徑Couldn’t open fiel for download ...(可能是版本不匹配江醇,直接粘貼Github反饋網(wǎng)址濒憋,進(jìn)入看看Mamba軟件更新情況,小姐姐安裝了0.9.1版本(降了版本型號陶夜,結(jié)果還是不行))
11mamba安裝軟件報(bào)錯(cuò)&conda 安裝軟件卻不報(bào)錯(cuò)(中)
為什么我的which STAR凛驮,不顯示STAR軟件的所在路徑呢?但我的STAR --help能夠找到.(注意軟件名大小寫的區(qū)別条辟,在安裝時(shí)黔夭,大小寫仿佛沒有區(qū)別。但是在搜索查詢時(shí)捂贿,大小寫要注意區(qū)分纠修。)
安裝時(shí)可以用bioconda.org官網(wǎng)查詢匹配。
11mamba安裝軟件報(bào)錯(cuò)&conda 安裝軟件卻不報(bào)錯(cuò)(下)
作者嘗試厂僧,退出rnaseq環(huán)境,進(jìn)入base環(huán)境了牛,新建一個(gè)環(huán)境颜屠,將mamba安裝在新環(huán)境下辰妙。激活新環(huán)境(換環(huán)境嘗試,報(bào)錯(cuò)依舊)
刪除環(huán)境時(shí)甫窟,必須注意要退出該環(huán)境密浑,再進(jìn)行刪。
mamba安裝再base環(huán)境下粗井,先退出base尔破,再remove -n base mamba(刪除名為base環(huán)境的mamba軟件)
再次嘗試(無效):解壓mamba文件 tar zxvf mamba.gz ./ (無效),拷貝cp app ~/miniconda3 -r浇衬; 移動(dòng)當(dāng)前文件夾所有文件到上一級文件夾下 mv ./* ../ -r (有空的文件夾懒构,不能拷貝)
?
11 mamba安裝軟件成功案例(最終)---結(jié)果作者還是報(bào)錯(cuò)了 ,報(bào)錯(cuò)命令conda has prepared the above report
?
12conda或者mamba安裝軟件經(jīng)典報(bào)錯(cuò) HTP000 CONECTION FAILED,HTTP error(經(jīng)典網(wǎng)絡(luò)不行的報(bào)錯(cuò))
?
13conda安裝軟件報(bào)錯(cuò) An unexpected error has occured, conda has prepared the above report. 可能安裝的軟件與python版本不匹配耘擂,最好改變安裝軟件的版本胆剧,因?yàn)閜ython包(Python包是基礎(chǔ)配置包)一變,可能會(huì)導(dǎo)致其他版本不能用醉冤。中等新建新環(huán)境秩霍,安裝匹配的python版本(麻煩,得反復(fù)調(diào)用)蚁阳,最次直接在原環(huán)境直接更改python版本铃绒。
查看版本conda list或 ?軟件名 -V。
?
[if !supportLists]14.?[endif]conda 安裝的兩個(gè)軟件是“歡喜冤家”不能共存螺捐,其實(shí)就是版本沒找對(更新或者降低版本)(版本號要相互對應(yīng)颠悬,要先安裝一個(gè)包,再按另一個(gè)包归粉,才能使用)
那怎么找是否兼容(依存)呢椿疗,怎么安裝呢
怎么找對版本:去官網(wǎng)查看有無depend(依存)關(guān)系;此外可以運(yùn)用mamba repoquery denpends 包名 命令去查詢依賴關(guān)系(誰依賴mamba) mamba repoquery whoneeds python(誰需要某某軟件)
怎么安裝:---技能三:利用conda安裝最新版本mira和mitbom (參考博主此個(gè)視頻糠悼,能夠解決不兼容問題届榄。)
15借助conda軟件安裝報(bào)錯(cuò),出現(xiàn)GLIBCXX_3.4.22 not found問題(安裝上了倔喂,為啥查找不到)---軟件庫新建鏈接就行(見up主铝条,fastp軟件系列2與3,解決這個(gè)問題)
(命名安裝不了席噩,彈不出幫助文檔)-----(可能是軟件名大小寫問題)班缰,想要弄清大小寫,去萬能的官網(wǎng)搜 anaconda.org/search(但是注意官網(wǎng)與服務(wù)器大小寫不統(tǒng)一悼枢,如star埠忘,官網(wǎng)小寫,但是在服務(wù)器是大寫的;此外注意服務(wù)器中每個(gè)字母莹妒,每個(gè)空格都有特定的意義名船,不能大意)
小思考:(可以考慮做一款推薦版的視頻,每個(gè)軟件應(yīng)該安裝什么版本旨怠,安裝的順序----這種效果應(yīng)該會(huì)非常不錯(cuò)--自己會(huì)了之后做這個(gè)---up主在第16節(jié)就進(jìn)行了推薦渠驼,安裝的話可以借鑒他們實(shí)驗(yàn)室的流程)
16轉(zhuǎn)錄組分析—總結(jié)自己Linux上常用的轉(zhuǎn)錄組版本軟件
安裝的時(shí)候,名稱用trim-galore鉴腻,查詢的時(shí)候迷扇,軟件名稱是用trim_galore
可以強(qiáng)烈借鑒作者的各種軟件版本。那樣不會(huì)存在版本問題爽哎。
17批量下載ebi中的fastaq/SRA數(shù)據(jù)
準(zhǔn)備數(shù)據(jù):GSE155902(自身必須根據(jù)作者的路程演示一遍***,跟著up主做一遍蜓席,可以思考不斷的做PPT進(jìn)行輸出)
(選擇原因:該組數(shù)據(jù)分組明確,樣本量較少倦青,便與演示瓮床,文章中清晰展示過程,并給出了原始數(shù)據(jù)----可以自己演示進(jìn)行比較)
掛在后臺(tái)下載NCBI中的數(shù)據(jù)
nohupwget -c 鏈接 &()368302是其名稱
下載位置:批量下載的話可能下載在家目錄下的NCBI處
Kill 368302(結(jié)束進(jìn)程)
取消下載則先刪除文件rm SRR12415656 ,接著取消后臺(tái)下載rm nohup.out
Sra的格式需要用個(gè)軟件轉(zhuǎn)換成FASTAQ格式产镐,不如利用EBI網(wǎng)站搜索轉(zhuǎn)換隘庄,直接下載FASTAQ格式
批量下載(基于文件命名有順序,所以利用for循環(huán)指定范圍進(jìn)行批量下載)】
for循環(huán)展示:for i in {1..100} ?(展示1-100癣亚,并用空格隔開)
> do echo -ne “$i ”(-ne數(shù)字與數(shù)字之間以空格隔開)
> done
批量下載命令:
如for i in 52 53 54 55 56 57 58 59 60 61 62 63 ?; do
>{
> nohup wget -c ftp: //ftp.sra.ebi.ac.uk/voll/fastq/SRR124/0${i}/SRR124156${I}/SRR124156${i}_1.fa stq.gz &
>}
>done
Ctrl+P鍵可以顯示之前輸入的命令丑掺,Ctrl+N鍵可以顯示下一個(gè)常用命令; tail -f nohup .out(可以查看下載進(jìn)度)
18 解讀轉(zhuǎn)錄組測序下機(jī)數(shù)據(jù)&fastaq文件述雾,到手的下機(jī)數(shù)據(jù)街州、利用linux查看fasta文件
一查看什么(測序信息)
查看每個(gè)下載數(shù)據(jù)內(nèi)部內(nèi)容,每一行代表什么
zless SRR12415652_1. fasta.gz |head -n 8(只查看該數(shù)據(jù)集的前8行玻孟,up主打算精心講解其組成)
ATCG表示通過紅黃藍(lán)綠熒光進(jìn)行修飾的唆缴,N代表沒有讀出熒光顏色,不知道堿基組成黍翎。
zless SRR12415652_1. fasta.g 不用管道部分(想看多少看多少)
數(shù)據(jù)集的內(nèi)容組成由4行4行的循環(huán)格式組成面徽,每一個(gè)4行代表
4行中第一行代表的是測序信息(啥樣本(樣本名稱)啥儀器啥泳道啥流動(dòng)池啥line啥tiel,啥X/Y匣掸,最末尾的1代表第一個(gè)reads)
行中第二行代表的是堿基順序(如果含N太多的話趟紊,需要質(zhì)控修建掉吧)
第三行代表的是+號(一般沒有內(nèi)容,有內(nèi)容也基本與第一行一樣碰酝,但是+號必須保留)
第四行代表(第二行每一個(gè)堿基的質(zhì)量值霎匈,代表相對應(yīng)堿基的ASC‖碼)ASC‖碼有phred33與phred64碼,目前主要是用phred33送爸,反映堿基質(zhì)量铛嘱。
?
19 解讀轉(zhuǎn)錄組測序下機(jī)數(shù)據(jù)&fastaq文件(同18)
20轉(zhuǎn)錄組分析——怎么才能知道下載的fastq文件是否完整--md5sum(校驗(yàn)碼)文件輕松搞定
用md5sum *gz >md5.txt(將當(dāng)前位置所有md5sum *gz文件寫入md5.txt文件暖释,目錄下會(huì)多一個(gè)md5.txt文件,可以用md5查看文件完整性)---- cat md5.txt(可以比對公司的或者網(wǎng)站數(shù)據(jù)庫提供的弄痹,確認(rèn)數(shù)據(jù)是否被改動(dòng)或者有缺失) ?md5sum -c md5.txt(可以用于反饋下載數(shù)據(jù)是否完整)
21轉(zhuǎn)錄組分析 ?---對GSE155902批量fastQC質(zhì)控
檢查完數(shù)據(jù)完整性之后饭入,進(jìn)行質(zhì)控嵌器,質(zhì)控利用fastQC軟件肛真,一般都是批量進(jìn)行質(zhì)控
查看當(dāng)前文件夾下有多少格文件ls |wc -l
[if !supportLists]一、[endif]先展示單個(gè)進(jìn)行質(zhì)控
激活安裝軟件的小環(huán)境conda activate fastQC
接著開始質(zhì)控fastqc -t 2 SRR12415652_1.fastq.gz(-t 2代表的是兩個(gè)線程爽航,跑的可能稍微慢些)
ls質(zhì)控之后蚓让,會(huì)生成一個(gè)SRR12415652_1.fastq.html(網(wǎng)頁),可以下載該網(wǎng)頁進(jìn)行查看讥珍,每次質(zhì)控历极,都會(huì)生成一個(gè)zip
二、批量質(zhì)控
用通配符ls *gz |xargs fastqc -t 5
避免一個(gè)一個(gè)點(diǎn)開相應(yīng)的html進(jìn)行查看(上百個(gè)不得點(diǎn)死衷佃,所以multiqc來了)趟卸,可以將各自的html打包成一個(gè)html總文件進(jìn)行查看
用multiqc ./(直接匯總生成multiqc的html)
可以下載到桌面進(jìn)行查看,也可以用軟件進(jìn)行查看氏义。
22轉(zhuǎn)錄組分析---對GSE155902批量trim_galore質(zhì)量控制
創(chuàng)建一個(gè)名為rawdata_qc的文件mkdir rawdata_qc
將所有html锄列、zip文件都放在該文件夾下mv *html ./rawdata_qc
mv *zip ./rawdata_qc/
mv multiqc_data/ ./rawdata_qc/
創(chuàng)建一個(gè)文件rawdata
把所有g(shù)z結(jié)尾文件放入該文件夾下 mv *gz ./rawdata
ls
cd rawdata
用原始數(shù)據(jù)進(jìn)行質(zhì)控(所有相應(yīng)操作必須要有相應(yīng)軟件---trim_galore安裝之前,必須先安裝cutadapt)
批量進(jìn)行處理(原始數(shù)據(jù)質(zhì)控處理)
用ls *_1.*gz>1 ?(把1結(jié)尾的文件寫成1結(jié)尾的文本文件)
用ls *_2.*gz>1 ?(把2結(jié)尾的文件寫成2結(jié)尾的文本文件)
paste 1 2 > config ??(把1與2并排排列惯悠,整理在一個(gè)文件夾下)
Mkdir cleandata cleandata_qc(建立cleandata文件與其質(zhì)控文件)
用dir=”./cleandata”(指定輸出路徑)
用cat config |while read id ??????????????(讀取列表)
do
arr=${id}
fq1=${arr[0]}
fq2=${arr[1]}
nohup trim_galore -q 25 --phred33邻邮、64
23 轉(zhuǎn)錄組分析錄屏 ---對trim_galore質(zhì)控后的fastq文件fastqc一下,看一下質(zhì)控效果
進(jìn)入質(zhì)控完的結(jié)果的目錄下
cd cleandata后將cleandata_qc放在cleandata下(原始文件gz結(jié)尾克婶,質(zhì)控文件fq.gz結(jié)尾)
測序長度筒严,由于后續(xù)重復(fù)較高,設(shè)置為20-100情萤,20太低了鸭蛙,所以up主將其調(diào)為
質(zhì)控效果不好,所以作者打算重新進(jìn)行質(zhì)控
?
找?guī)灼恼驴纯崔D(zhuǎn)錄組測序數(shù)據(jù)質(zhì)控結(jié)果怎么閱讀筋岛?明白fastqc與multiqc處理之后娶视,結(jié)果的閱讀方式。
24 轉(zhuǎn)錄組分析——trim_galore軟件的使用方法(講解質(zhì)控文件trim_galore的幫助文檔)
[if !supportLists]1-?[endif]conda avcivate rnaseq
[if !supportLists]2-?[endif]trim_galore(想用必須安裝cutadapt)
[if !supportLists]3-?[endif]trim_galore利用trim_galore --help查看該軟件的使用說明泉蝌,-q(保證每一個(gè)堿基的之質(zhì)量歇万,默認(rèn)是20,up主一般用25)勋陪; -phred33 (sanger測序1.9的話就是ASC‖+33贪磺,其余則是64(普遍是33型); --fastqc (運(yùn)行FastQC诅愚,產(chǎn)生FastQC文件)寒锚; 實(shí)在不行可以運(yùn)用百度搜索例子劫映。--stringency(接頭序列重復(fù)不能超過一個(gè).?不大理解該含義) -e(錯(cuò)誤率設(shè)置為0.1) ?--length(長度默認(rèn)20,太短的話比對序列會(huì)顯著增加) ?--max n (最多允許幾個(gè)n出現(xiàn)) ?--trim-n(去除n堿基)
[if !supportLists]4-?[endif]trim_galore -l 25 -stringency 3 -q 25 --phread 33(堿基長度設(shè)置為25刹前,接頭重復(fù)不能超過3否則會(huì)被刪除泳赋,堿基質(zhì)量值要大于25, ASC‖堿基質(zhì)量評估類型) ?需要什么參數(shù)喇喉,按照help文檔進(jìn)行添加即可祖今。
哎,作者又?jǐn)嗔思鸺迹懔饲埽炎髡呦鄳?yīng)的技能視頻也先學(xué)了把歪沃。