轉(zhuǎn)錄組入門(mén)學(xué)習(xí)(三)

學(xué)習(xí)——數(shù)據(jù)下載及質(zhì)控

數(shù)據(jù)預(yù)處理

1. 準(zhǔn)備工作
1.1 構(gòu)建項(xiàng)目目錄
  • “基因組文件”與“注釋信息文件”放在同一個(gè)目錄中
  • 原始數(shù)據(jù)目錄
  • 結(jié)果文件目錄:包括“比對(duì)結(jié)果”與“定量結(jié)果”


    阿里云終端截圖铣减,不能安裝tree包
#解決辦法
sudo apt-get update #進(jìn)行升級(jí)
#之后安裝tree
apt install tree
#但是當(dāng)時(shí)沒(méi)考慮用conda直接安裝tree
#安裝完畢后渐裂,運(yùn)行tree時(shí)發(fā)現(xiàn)有亂碼,解決方法:
alias tree='tree --charset ASCII'
解決之后的tree命令狀態(tài)
1.2 參考序列下載
  • 參考基因組 fasta
  • 注釋信息 gtf/gff
1.3 原始數(shù)據(jù)上傳
  • 檢查數(shù)據(jù)完整性:md5值
  • 給自己的文件生成md5值:
  • 比對(duì)已有的md5值:
md5sum *gz > md5.txt    #生成md5.txt文件
md5sum -c md5.txt       #檢查md5文件的一致性
2. 質(zhì)量控制:兩個(gè)軟件
2.1 FastQC
  • 安裝:conda
#FastQC為java軟件,需要預(yù)先配置Linux java 環(huán)境
getconf LONG_BIT  #查看系統(tǒng)是32位還是64位
wget -c http://download.oracle.com/otn-pub/java/jdk/8u151-b12/e758a0de34e24606bca991d704f6dcbf/jdk-8u151-linux-x64.tar.gz
tar zxf jdk-8u151-linux-x64.tar.gz  #解壓縮
mkdir java
mv ./jdk1.8.0_151/ ./java  #將解壓縮的文件移入新文件夾

#在profile中加入下面的內(nèi)容
vi .profile   
JAVA_HOME=/usr/java/jdk1.8.0_151
export JRE_HOME=/usr/java/jdk1.8.0_151/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

reboot   #重啟計(jì)算機(jī)
  • 如何批量處理多個(gè)樣品
#方法1:
fastqc sample*gz     #fastq文件不需要解壓
rm -f *html    #刪除所有html文件(-f (--force): 強(qiáng)制刪除文件或目錄,沒(méi)有提示)
rm -f *zip     #刪除所有zip文件

#方法2:
for i in 'ls *gz'; do fastqc $i; done #依次遍歷以gz結(jié)尾的文件,并進(jìn)行fastqc命令

#方法3:
ls *gz | xargs -I [] echo 'nohup fastqc [] &' > fastqc.sh
#并行處理多個(gè)樣本
#解釋?zhuān)?#ls *gz |: 列出文件列表贪惹,并通過(guò)管道操作符傳入后面
#xargs -I: xargs命令是給其他命令傳遞參數(shù)的一個(gè)過(guò)濾器,也是組合多個(gè)命令的一個(gè)工具寂嘉。把前一個(gè)命令的輸出結(jié)果當(dāng)做后一個(gè)命令的輸入文件奏瞬。
#它擅長(zhǎng)將標(biāo)準(zhǔn)輸入數(shù)據(jù)轉(zhuǎn)換成命令行參數(shù),xargs能夠處理管道或者stdin并將其轉(zhuǎn)換成特定命令的命令參數(shù)泉孩。
#[]: 替代符
2.2 MultiQC
  • 安裝:conda
  • 特點(diǎn):
    1. 自動(dòng)檢測(cè)已有輸出結(jié)果
    2. 支持多種結(jié)果的整合
  • 同時(shí)展示多個(gè)結(jié)果文件
3. 質(zhì)量過(guò)濾
  • 軟件:Trimmomatic
  • 特點(diǎn):
    1. 支持多線程硼端,處理數(shù)據(jù)速度快
    2. 主要用來(lái)去除 Illumina 平臺(tái)接頭
    3. 根據(jù)堿基質(zhì)量值對(duì) fastq 進(jìn)行篩選
    4. 支持 SE 和 PE 測(cè)序數(shù)據(jù),支持 gzip 和 bzip2 壓縮文件
  • 過(guò)濾依據(jù)
    1. Illumianclip: 過(guò)濾reads 中的illumina 接頭
    2. LEADING: 從 reads 開(kāi)頭切除質(zhì)量值低于閾值的堿基
    3. TRAILING: 從 reads 末尾切除質(zhì)量值低于閾值的堿基
    4. SLIDINGWINDOW: 從 reads 的 5' 端開(kāi)始寓搬,進(jìn)行滑窗過(guò)濾珍昨,切掉堿基質(zhì)量平均值低于閾值的滑窗
    5. MINLEN: 丟棄經(jīng)過(guò)剪切后長(zhǎng)度低于閾值的這條 reads
    6. TOPHRED33: 將 reads 的堿基質(zhì)量體系轉(zhuǎn)為 phred-33
    7. TOPHRED64: 將 reads 的堿基質(zhì)量體系轉(zhuǎn)為 phred-64
  • 使用
    1. 接頭序列的選擇:
      "Illumian Single End" / "Illumian Paired End": "TruSeq2-SE.fa" and "TruSeq2-PE.fa"
      "TruSeq Universal Adapter" / "TruSeq Adapter, Index ...": "TruSeq3-SE.fa" and "TruSeq3-PE.fa"
    2. 去接頭參數(shù)的選擇: true; false
#參數(shù):
trimmomatic PE -threads 4 \
sample1_R1.fastq.gz sample1_R2.fastq.gz \
../02clean_data/sample1_paired_clean_R1.fastq.gz \
../02clean_data/sample1_unpair_clean_R1.fastq.gz \
../02clean_data/sample1_paired_clean_R2.fastq.gz \
../02clean_data/sample1_unpair_clean_R2.fastq.gz \
ILLUMINACLIP:/home/leon/miniconda2/share/trimmomatic-0.36-5/adapters/TruSeq3-PE-2.fa:2:30:10:1:true \
LEADING:3 TRAILING:3 \
SLIDINGWINDOW:4:20 MINLEN:50 TOPHRED33

trimmomatic PE -threads 4 \
sample2_R1.fastq.gz sample2_R2.fastq.gz \
../02clean_data/sample2_paired_clean_R1.fastq.gz \
../02clean_data/sample2_unpair_clean_R1.fastq.gz \
../02clean_data/sample2_paired_clean_R2.fastq.gz \
../02clean_data/sample2_unpair_clean_R2.fastq.gz \
ILLUMINACLIP:/home/leon/miniconda2/share/trimmomatic-0.36-5/adapters/TruSeq3-PE-2.fa:2:30:10:1:true \
LEADING:3 TRAILING:3 \
SLIDINGWINDOW:4:20 MINLEN:50 TOPHRED33

#注意:冒號(hào) ':' 之后沒(méi)有空格,否則會(huì)報(bào)錯(cuò)
sample1運(yùn)行結(jié)果
sample2運(yùn)行結(jié)果
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末句喷,一起剝皮案震驚了整個(gè)濱河市镣典,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌唾琼,老刑警劉巖兄春,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異父叙,居然都是意外死亡神郊,警方通過(guò)查閱死者的電腦和手機(jī)肴裙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)趾唱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人蜻懦,你說(shuō)我怎么就攤上這事获高〕趁埃” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵拷呆,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我跟磨,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任躬贡,我火速辦了婚禮,結(jié)果婚禮上眼坏,老公的妹妹穿的比我還像新娘拂玻。我一直安慰自己,他們只是感情好宰译,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布檐蚜。 她就那樣靜靜地躺著,像睡著了一般沿侈。 火紅的嫁衣襯著肌膚如雪闯第。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,741評(píng)論 1 289
  • 那天缀拭,我揣著相機(jī)與錄音咳短,去河邊找鬼。 笑死蛛淋,一個(gè)胖子當(dāng)著我的面吹牛诲泌,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播铣鹏,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼敷扫,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了诚卸?” 一聲冷哼從身側(cè)響起葵第,我...
    開(kāi)封第一講書(shū)人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎合溺,沒(méi)想到半個(gè)月后卒密,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡棠赛,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年哮奇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片睛约。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鼎俘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出辩涝,到底是詐尸還是另有隱情贸伐,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布怔揩,位于F島的核電站捉邢,受9級(jí)特大地震影響脯丝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜伏伐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一宠进、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧藐翎,春花似錦砰苍、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至赤惊,卻和暖如春吼旧,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背未舟。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工圈暗, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人裕膀。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓员串,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親昼扛。 傳聞我的和親對(duì)象是個(gè)殘疾皇子寸齐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348