FastQC是一個在生物信息學(xué)領(lǐng)域廣泛使用的工具蛤吓,用于對高通量測序數(shù)據(jù)進(jìn)行質(zhì)量控制。這是一個Java應(yīng)用程序,需要一個Java運(yùn)行環(huán)境(JRE)。
FastQC的結(jié)果只針對一個測序文件找都,如果想將多個測序文件的結(jié)果整合一塊來看,可以嘗試用MultiQC軟件
MultiQC是一種基于Python的工具廊酣,用于整合和查看多種類型高通量測序數(shù)據(jù)的質(zhì)量控制結(jié)果能耻。
安裝
1. 安裝Java Runtime Environment (JRE)和 Java Development Kit (JDK)
1.1. JRE和JDK
- Java有多種不同的實(shí)現(xiàn);Open JDK和Oracle Java是Java的兩個主要實(shí)現(xiàn)啰扛,它們之間幾乎沒有區(qū)別嚎京。
- Java Runtime Environment (JRE): 由Java虛擬機(jī)JVM,類和二進(jìn)制文件組成隐解,提供環(huán)境讓我們能夠運(yùn)行Java程序。
- Java Development Kit (JDK):包含構(gòu)建Java應(yīng)用程序所需的JRE以及開發(fā)/調(diào)試工具和庫诫睬,有些java程序運(yùn)行的時候需要調(diào)用煞茫。
1.2. 安裝
1.2.1. apt安裝方式(有sudo權(quán)限)
- 需要sudo權(quán)限,可以在自己的虛擬機(jī)或服務(wù)器試
- 默認(rèn)的Ubuntu 20.04軟件源包含兩個OpenJDK軟件包:Java Runtime Environment JRE和Java Development Kit JDK摄凡。
- Ubuntu Server 20.04軟件源提供的jre及其安裝代碼:
sudo apt install openjdk-11-jre-headless # version 11.0.20.1+1-0ubuntu1~20.04, or sudo apt install default-jre # version 2:1.11-72 sudo apt install openjdk-16-jre-headless # version 16.0.1+9-1~20.04 sudo apt install openjdk-17-jre-headless # version 17.0.8.1+1~us1-0ubuntu1~20.04 sudo apt install openjdk-8-jre-headless # version 8u382-ga-1~20.04.1 sudo apt install openjdk-13-jre-headless # version 13.0.7+5-0ubuntu1~20.04
在Ubuntu安裝JDK和JRE:
- 安裝
sudo apt-get update sudo apt install openjdk-11-jre-headless -y sudo apt install default-jdk -y
- 測試是否安裝成功
java -version javac -version
(安裝成功可以不看這條)我在運(yùn)行
sudo apt install default-jdk -y
時出現(xiàn)以下報(bào)錯且安裝失敗:法一
參考文章https://blog.csdn.net/weixin_44120025/article/details/120934224
cd /etc/apt/apt.conf.d sudo chmod 777 proxy.conf #如果顯示找不到該文件,就換種方法 sudo gedit proxy.conf #彈出proxy.conf文件亲澡,刪除里面的http那兩行钦扭,保存關(guān)閉 sudo chmod 444 proxy.conf
法二(換源)
參考文章https://blog.csdn.net/Leslie___Cheung/article/details/120885228
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak #備份原文件 sudo chmod 777 /etc/apt/sources.list #更改文件權(quán)限使其可編輯 sudo gedit /etc/apt/sources.list #打開文件進(jìn)行編輯 #刪除原來的文件內(nèi)容,復(fù)制下面的內(nèi)容到其中并保持 deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic main restricted universe multiverse deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-updates main restricted universe multiverse deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-updates main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-backports main restricted universe multiverse deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-backports main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-security main restricted universe multiverse deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-security main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-proposed main restricted universe multiverse deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-proposed main restricted universe multiverse
1.2.2. 預(yù)編譯安裝方式(沒有sudo權(quán)限)
- 有些java軟件要求特殊的jdk版本床绪,需自行下載配置
- Oracle下載頁面:https://www.oracle.com/java/technologies/downloads/
- 參考文章:https://segmentfault.com/a/1190000038587476
2.下載安裝FastQC
- 軟件主頁:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
- 下載頁面:https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
在Linux上安裝FastQC具體過程如下:
- 創(chuàng)建一個名為“Biosofts”的文件夾
mkdir Biosofts
- 進(jìn)入“Biosofts”文件夾
cd ~/Biosofts
- 從官方下載網(wǎng)站下載FastQC的最新版本
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.12.1.zip
- 解壓縮下載的文件并檢測是否解壓成功
unzip fastqc_v0.12.1.zip -d ~/Biosofts ~/Biosofts/FastQC/fastqc -h
- 將FastQC的路徑添加到系統(tǒng)環(huán)境變量中并使其生效
echo 'export PATH=~/Biosofts/FastQC:$PATH'>>~/.bashrc source ~/.bashrc
- 通過輸入
fastqc -h
來檢查FastQC是否安裝成功客情。如果出現(xiàn)幫助界面,則說明安裝成功癞己。fastqc -h
下面是我上機(jī)實(shí)操的運(yùn)行畫面
3.下載安裝MultiQC
- multiqc官網(wǎng):https://multiqc.info/
- multiqc軟件包:https://github.com/ewels/MultiQC
- channel也可以用中科大的: https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
- 除了conda膀斋,大家也可以試試pip安裝
- 如果是conda安裝,既可以在python3也可以在python2環(huán)境安裝痹雅。
在Linux上使用Anaconda安裝multiqc的過程如下:
首先仰担,確保已經(jīng)安裝了Anaconda。如果沒有安裝Anaconda绩社,請參考我之前文章:Ubuntu中Anaconda的安裝與使用
-
打開終端摔蓝,通過以下命令創(chuàng)建一個新的Python環(huán)境(我創(chuàng)建的名為"myenv"):
conda create -n myenv python=3.7
這將創(chuàng)建一個新的Python 3.7環(huán)境,你也可以根據(jù)需要選擇其他Python版本愉耙。
-
激活新創(chuàng)建的環(huán)境:
conda activate myenv
-
接下來贮尉,使用以下命令安裝multiqc和其依賴項(xiàng):
conda install -c bioconda multiqc #或者pip安裝 pip install --user multiqc -i https://pypi.mirrors.ustc.edu.cn/simple/
這將從bioconda渠道中安裝multiqc及其相關(guān)依賴項(xiàng)。bioconda是一個專門用于生物信息學(xué)軟件的conda渠道劲阎。
安裝完成后绘盟,你就可以在該環(huán)境中使用multiqc了。
在創(chuàng)建和激活新的環(huán)境后,你可以使用conda list
命令來查看已安裝的軟件包列表龄毡,以確保multiqc和其依賴項(xiàng)已成功安裝吠卷。
運(yùn)行畫面
使用
在Linux中,fastqc和multiqc是兩個用于質(zhì)量控制和報(bào)告生成的常用工具沦零。
1. FastQC:
- FastQC是一個用于快速檢查測序數(shù)據(jù)質(zhì)量的工具祭隔。
- 使用FastQC可以生成一個HTML格式的報(bào)告,其中包含有關(guān)測序數(shù)據(jù)的各種質(zhì)量指標(biāo)和圖表路操。
- FastQC支持FASTQ格式的測序數(shù)據(jù)疾渴,可以分析單個文件或多個文件。
- 命令:
fastqc input.fastq
或fastqc input1.fastq input2.fastq
屯仗。 -
實(shí)例
2. MultiQC:
- MultiQC是一個用于整合多個質(zhì)量控制結(jié)果的工具搞坝。
- 使用MultiQC可以將多個FastQC或其他質(zhì)量控制工具生成的報(bào)告合并為一個整體的報(bào)告。
- MultiQC支持多種類型的報(bào)告魁袜,包括FastQC桩撮、Trimmomatic、Bowtie峰弹、BWA等店量。
- 命令:
multiqc .
或multiqc /path/to/folder
. -
實(shí)例
以上命令中,input.fastq
是待分析的FASTQ格式文件鞠呈,input1.fastq
和input2.fastq
是多個文件的示例輸入融师。MultiQC的示例命令中,.
表示當(dāng)前目錄蚁吝,/path/to/folder
是包含質(zhì)量控制報(bào)告的文件夾路徑旱爆。
3.獲取測序數(shù)據(jù)
我后續(xù)會更新附帶詳細(xì)圖片的獲取過程
使用NCBI的網(wǎng)頁界面搜索、瀏覽和下載數(shù)據(jù)步驟:
訪問NCBI網(wǎng)站:打開瀏覽器灭将,訪問NCBI疼鸟,網(wǎng)址為 https://www.ncbi.nlm.nih.gov/ 。
搜索數(shù)據(jù):在NCBI的主頁或相應(yīng)數(shù)據(jù)庫的頁面上庙曙,使用搜索欄輸入你想要查找的關(guān)鍵詞空镜、Accession號、物種名稱等捌朴,然后點(diǎn)擊搜索按鈕吴攒。
過濾結(jié)果:在搜索結(jié)果頁面,你可以使用篩選器砂蔽、限定條件和其他選項(xiàng)來縮小結(jié)果范圍洼怔,以便找到你需要的數(shù)據(jù)。
選擇數(shù)據(jù):在搜索結(jié)果中找到你需要的數(shù)據(jù)左驾,點(diǎn)擊相關(guān)條目查看詳細(xì)信息镣隶。
下載數(shù)據(jù):在數(shù)據(jù)的詳細(xì)信息頁面极谊,通常會有一個“Download”或類似的按鈕或鏈接,點(diǎn)擊它將會彈出下載選項(xiàng)安岂。選擇你想要的文件格式(如FASTA轻猖、FASTQ等)以及下載位置,然后開始下載域那。
這些步驟是籠統(tǒng)的咙边,具體的步驟和界面可能因NCBI網(wǎng)站的更新而有所變化〈卧保可以多看看相關(guān)教學(xué)內(nèi)容败许。
上述實(shí)機(jī)操作畫面因?yàn)槭褂玫牟煌绞脚c賬號登錄的Linux(帶圖形界面的是我自己電腦上操作,沒有圖形界面的是通過老師提供的賬號與服務(wù)器遠(yuǎn)程操作的)淑蔚,界面圖片和賬號已及環(huán)境名稱會有差別市殷,但整體操作過程是相同的。