11.安裝 samtools 軟件
生信軟件安裝:參考http://www.reibang.com/p/a2a7510908cf
- 登錄服務(wù)器
ssh gz16@118.24.223.116
pd19162
1 安裝Miniconda3
mkdir -p ~/biosoft
cd ~/biosoft
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 查看conda是否按照成功
(base) gz16@VM-0-17-ubuntu:~/biosoft$ conda --version
conda 4.7.10
2.設(shè)置conda鏡像
source ~/.bashrc
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
3.使用conda 安裝samtools 軟件
#如果不確定之前是否安裝過,可先查看
conda search samtools
#安裝指令
conda install -y samtools
#安裝過程(省略中間部分)
(base) gz16@VM-0-17-ubuntu:~/biosoft$ conda install -y samtools
Collecting package metadata (current_repodata.json): done
Solving environment: done
...
Downloading and Extracting Packages
libssh2-1.8.2 | 257 KB | ##################################### | 100%
samtools-1.9 | 299 KB | ##################################### | 100%
certifi-2019.9.11 | 147 KB | ##################################### | 100%
ca-certificates-2019 | 144 KB | ##################################### | 100%
openssl-1.1.1c | 2.1 MB | ##################################### | 100%
conda-4.7.12 | 3.0 MB | ##################################### | 100%
htslib-1.9 | 1.2 MB | ##################################### | 100%
libdeflate-1.2 | 63 KB | ##################################### | 100%
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
十二拇惋、打開 后綴為BAM 的文件寥粹,找到產(chǎn)生該文件的命令月培。 提示一下命令是:
/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp
由于在當(dāng)前服務(wù)器沒有找到bam文件,查到前10題里面有個(gè)下載的壓縮包里面有bam文件
返回復(fù)現(xiàn)
九劣坊、下載http://www.biotrainee.com/jmzeng/rmDuplicate.zip
文件得问,并且解壓,查看里面的文件夾結(jié)構(gòu)背稼。
wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip
ls -ll
unzip rmDuplicate.zip
cd rmDuplicate
tree
十、打開第九題解壓的文件玻蝌,進(jìn)入rmDuplicate/samtools/single
文件夾里面蟹肘,查看后綴為.sam
的文件词疼,搞清楚 生物信息學(xué)里面的SAM/BAM
定義是什么。
cd samtools/single/
less -S tmp.sam #最佳查看方式
cat tmp.sam
vim tmp.sam
#vim編輯器退出需要先`esc`帘腹,輸入`:`輸入`q/q!/wq`退出
# 打開bam 文件前2行
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/single$ less -S tmp.sam | head -n 2
SRR1042600.42157053 0 chr1 629895 42 51M * 0 0 ATAACCAATACTACCAATCANTACTCATCATTAATAATCATAATGGCTATA CCCFFFFFHHHHHJJJJJJJ#4AGHJJIIJJIIIIIJJJJIJIIIIJJIJI AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:11C8A30 YT:Z:UU
SRR1042600.42212881 0 chr1 629895 42 51M * 0 0 ATAACCAATACTACCAATCANTACTCATCATTAATAATCATAATGGCTATA @@<FDFFBFDHHFJEIIGJI#3AFHGEHEIJIIGIIGGIJIIJIGIIGIIJ AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:11C8A30 YT:Z:UU
十三題贰盗、根據(jù)上面的命令,找到我使用的參考基因組 /home/jianmingzeng/reference/index/bowtie/hg38
具體有多少條染色體阳欲。
由于當(dāng)前服務(wù)器沒有/home/jianmingzeng/reference/index/bowtie/hg38
所有還是在上面的題目中解壓的文件目錄下查找
找到在~/rmDuplicate/samtools/single
目錄下游2個(gè)bam文件
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/single$ ls
readme.txt tmp.rmdup.bam tmp.sam tmp.sorted.vcf.gz
tmp.header tmp.rmdup.vcf.gz tmp.sorted.bam
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/single$ samtools view -H tmp.rmdup.bam | head -n 10
@HD VN:1.0 SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr10 LN:133797422
@SQ SN:chr11 LN:135086622
@SQ SN:chr11_KI270721v1_random LN:100316
@SQ SN:chr12 LN:133275309
@SQ SN:chr13 LN:114364328
@SQ SN:chr14 LN:107043718
@SQ SN:chr14_GL000009v2_random LN:201709
@SQ SN:chr14_GL000225v1_random LN:211173
#因?yàn)槭嵌M(jìn)制壓縮文件舵盈,查看不能用less而應(yīng)該用zless
zless -S tmp.rmdup.bam
查看生信基礎(chǔ)數(shù)據(jù)格式參考生信菜鳥團(tuán)-專題學(xué)習(xí)目錄(2)
數(shù)據(jù)格式專題
1.FastQ和FastA格式
2.SAM格式
3.gff/gtf格式
4.Bigwig/Wiggle格式
5.bed格式
6.vcf格式
7.Blast&Blat
簡(jiǎn)單探索后找到染色體信息
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/single$ samtools view -H tmp.rmdup.bam | awk '{print $2}'| sort | uniq -c| grep -v '_'
1 ID:bowtie2
1 SN:chr1
...
1 SN:chrM
1 SN:chrX
1 SN:chrY
1 VN:1.0
十四題、上面的后綴為bam
的文件的第二列球化,只有 0 和 16 兩個(gè)數(shù)字秽晚,用 cut/sort/uniq
等命令統(tǒng)計(jì)它們的個(gè)數(shù)。
因?yàn)楹驮瓉淼臄?shù)據(jù)不同筒愚,這里tmp.rmdup.bam
文件第二列是LN:248956422
應(yīng)該是染色體位置信息但不是單純的數(shù)值赴蝇,因此換別的bam文件
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/single$ cat tmp.sam | awk '{print $2}' | sort | uniq -c
29 0
24 16
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/single$ samtools view tmp.sorted.bam |awk '{print $2}' | sort | uniq -c
29 0
24 16
十五題、重新打開 rmDuplicate/samtools/paired
文件夾下面的后綴為BAM 的文件巢掺,再次查看第二列句伶,并且統(tǒng)計(jì)。
(base) gz16@VM-0-17-ubuntu:~$ cd rmDuplicate/samtools/paired/
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/paired$ ls
readme.txt tmp.rmdup.bam tmp.sam tmp.sorted.vcf.gz
tmp.header tmp.rmdup.vcf.gz tmp.sorted.bam
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/paired$ zless -S tmp.sorted.bam | head -n 2
BAM'
@HD VN:1.3 SO:coordinate
@SQ SN:chr10 LN:135534747
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/paired$ samtools view tmp.sorted.bam | head -n 2
D00691:39:C7HGRANXX:7:1102:7445:18770 99 chr10 93614 60 126M =93621 133 GGCACGTGGTGACCCCACTCATGGTAGCAGACACCAGGTGGTTCAGGTCACCATAGGTGGGTGTGGGCAGTTTTAGGGTCTTGGAACATATGTCATACAGAGCTTCGTTATCTATGCAAAAGGTCT BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF<FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF NM:i:0 MD:Z:126 AS:i:126 XS:i:111XA:Z:chr3,-197846908,126M,3;chr9,-141070974,126M,3;chr1,-808987,126M,4;chr4,+190904265,126M,4; MQ:i:60
D00691:39:C7HGRANXX:7:1102:7445:18770 147 chr10 93621 60 126M =93614 -133 GGTGACCCCACTCATGGTAGCAGACACCAGGTGGTTCAGGTCACCATAGGTGGGTGTGGGCAGTTTTAGGGTCTTGGAACATATGTCATACAGAGCTTCGTTATCTATGCAAAAGGTCTCATCTGC FFFFFFFFFFFBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFBFFFFFFFFFFFFFFBBBBB NM:i:0 MD:Z:126 AS:i:126 XS:i:111XA:Z:chr9,+141070967,126M,3;chr3,+197846902,1S125M,3; MQ:i:60
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/paired$ samtools view tmp.sorted.bam | awk '{print $2}'
99
147
323
387
353
97
371
433
97
99
147
99
147
99
147
99
147
99
99
147
147
163
163
83
83
163
83
99
147
99
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/paired$ samtools view tmp.sorted.bam | awk '{print $2}'| sort |uniq -c
8 147
3 163
1 323
1 353
1 371
1 387
1 433
3 83
2 97
9 99
十六題陆淀、下載 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
文件考余,并且解壓,查看里面的文件夾結(jié)構(gòu)轧苫, 這個(gè)文件有2.3M楚堤,注意留心下載時(shí)間及下載速度。
(base) gz16@VM-0-17-ubuntu:~/rmDuplicate/samtools/paired$ cd ~
(base) gz16@VM-0-17-ubuntu:~$ wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
--2019-10-10 12:19:16-- http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
Resolving www.biotrainee.com (www.biotrainee.com)... 123.206.72.184
Connecting to www.biotrainee.com (www.biotrainee.com)|123.206.72.184|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2391084 (2.3M) [application/zip]
Saving to: 'sickle-results.zip'
sickle-results.zip 32%[=====> ] 765.01K 51.3KB/s eta 21s
#下載完成后解壓縮并查看目錄結(jié)構(gòu)
2019-10-10 12:19:36 (118 KB/s) - 'sickle-results.zip' saved [2391084/2391084]
(base) gz16@VM-0-17-ubuntu:~$ unzip sickle-results.zip
Archive: sickle-results.zip
creating: sickle-results/
inflating: sickle-results/command.txt
...
inflating: sickle-results/trimmed_output_file2_fastqc.zip
(base) gz16@VM-0-17-ubuntu:~$ cd sickle-results
(base) gz16@VM-0-17-ubuntu:~/sickle-results$ tree
.
|-- command.txt
|-- single_tmp_fastqc.html
|-- single_tmp_fastqc.zip
|-- test1_fastqc.html
|-- test1_fastqc.zip
|-- test2_fastqc.html
|-- test2_fastqc.zip
|-- trimmed_output_file1_fastqc.html
|-- trimmed_output_file1_fastqc.zip
|-- trimmed_output_file2_fastqc.html
`-- trimmed_output_file2_fastqc.zip
這里面有個(gè)
command.txt
,其中有些代碼可參考安裝軟件
十七題浸剩、解壓sickle-results/single_tmp_fastqc.zip
文件钾军,并且進(jìn)入解壓后的文件夾鳄袍,找到fastqc_data.txt
文件绢要,并且搜索該文本文件以 >>開頭的有多少行?
插曲拗小,忘記基礎(chǔ)解壓縮指令重罪,反而寫成壓縮指令,回頭復(fù)習(xí)一下
- 1).gzip 和gunzip 指令
功能: gzip 用于壓縮文件
gunzip 用于解壓文件 - 2). zip指令 和 unzip 指令
功能:zip 用于壓縮文件
unzip 用于解壓文件 - zip 常用選項(xiàng):
-r 遞歸壓縮
unzip 常用選項(xiàng):
-d <目錄> 指定解壓后的文件的存放目錄 - 3). tar 指令
功能:打包指令最后打包的文件是.tar.gz文件
注意:打包用-zcvf
解壓用-zxvf
(base) gz16@VM-0-17-ubuntu:~/sickle-results$ gunzip single_tmp_fastqc.zip.gz
(base) gz16@VM-0-17-ubuntu:~/sickle-results$ ll
total 3028
drwxrwxr-x 2 gz16 gz16 4096 Oct 10 12:33 ./
drwxr-xr-x 14 gz16 gz 4096 Oct 10 12:20 ../
-rw-rw-r-- 1 gz16 gz16 901 Oct 6 2016 command.txt
-rw-rw-r-- 1 gz16 gz16 259290 Oct 6 2016 single_tmp_fastqc.html
-rw-rw-r-- 1 gz16 gz16 260908 Oct 6 2016 single_tmp_fastqc.zip
-rw-rw-r-- 1 gz16 gz16 308721 Oct 6 2016 test1_fastqc.html
-rw-rw-r-- 1 gz16 gz16 334674 Oct 6 2016 test1_fastqc.zip
-rw-rw-r-- 1 gz16 gz16 305348 Oct 6 2016 test2_fastqc.html
-rw-rw-r-- 1 gz16 gz16 332699 Oct 6 2016 test2_fastqc.zip
-rw-rw-r-- 1 gz16 gz16 305987 Oct 6 2016 trimmed_output_file1_fastqc.html
-rw-rw-r-- 1 gz16 gz16 329011 Oct 6 2016 trimmed_output_file1_fastqc.zip
-rw-rw-r-- 1 gz16 gz16 302503 Oct 6 2016 trimmed_output_file2_fastqc.html
-rw-rw-r-- 1 gz16 gz16 328552 Oct 6 2016 trimmed_output_file2_fastqc.zip
(base) gz16@VM-0-17-ubuntu:~/sickle-results$ unzip single_tmp_fastqc.zip
Archive: single_tmp_fastqc.zip
creating: single_tmp_fastqc/
creating: single_tmp_fastqc/Icons/
creating: single_tmp_fastqc/Images/
inflating: single_tmp_fastqc/Icons/fastqc_icon.png
...
inflating: single_tmp_fastqc/fastqc.fo
(base) gz16@VM-0-17-ubuntu:~/sickle-results$ cd single_tmp_fastqc/
(base) gz16@VM-0-17-ubuntu:~/sickle-results/single_tmp_fastqc$ ls
Icons Images fastqc.fo fastqc_data.txt fastqc_report.html summary.txt
(base) gz16@VM-0-17-ubuntu:~/sickle-results/single_tmp_fastqc$ less -S fastqc_data.txt | awk '/^>>/{print $0}'
>>Basic Statistics pass
>>END_MODULE
...
>>Kmer Content warn
>>END_MODULE
(base) gz16@VM-0-17-ubuntu:~/sickle-results/single_tmp_fastqc$ less -S fastqc_data.txt | awk '/^>>/{print $0}' | wc -l
24
十八題哀九、下載 http://www.biotrainee.com/jmzeng/tmp/hg38.tss
文件剿配,去NCBI找到TP53/BRCA1
等自己感興趣的基因?qū)?yīng)的 refseq數(shù)據(jù)庫
ID,然后找到它們的hg38.tss
文件的哪一行阅束。
https://www.ncbi.nlm.nih.gov/gene/1827
cd ~
wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss
(base) gz16@VM-0-17-ubuntu:~$ head hg38.tss
NR_046018 chr1 9874 13874 0
NR_024540 chr1 27370 31370 1
NR_104148 chr7 64664083 64668083 0
NR_111960 chrX 44871175 44875175 0
NR_028458 chr14 92104621 92108621 1
NR_028459 chr14 92104621 92108621 1
NR_026818 chr1 34081 38081 1
NR_026820 chr1 34081 38081 1
NR_026822 chr1 34081 38081 1
NM_001005484 chr1 67091 71091 0
#參考基因NR_...或者NM_...
#在NCBI選取目的基因RCAN1轉(zhuǎn)錄本c:NM_203418 在hg38.tss文件的第3467行
(base) gz16@VM-0-17-ubuntu:~$ grep -n NM_203418 hg38.tss
3467:NM_203418 chr21 34525010 34529010 1
太棒了呼胚,原來還有這種操作,我發(fā)現(xiàn)又有一個(gè)問題解決了息裸,我需要找到6號(hào)染色體體短臂的一段序列有哪些基因蝇更,這就可以提取出來基因名稱了呀沪编,棒棒的!
十九題年扩、解析hg38.tss
文件蚁廓,統(tǒng)計(jì)每條染色體的基因個(gè)數(shù)。
(base) gz16@VM-0-17-ubuntu:~$ cat hg38.tss|awk '{print $2}' |sort |uniq -c
6050 chr1
2824 chr10
2 chr10_GL383545v1_alt
10 chr10_GL383546v1_alt
2 chr10_KI270825v1_alt
3449 chr11
...
2553 chrX
3 chrX_KI270880v1_alt
4 chrX_KI270881v1_alt
1 chrX_KI270913v1_alt
414 chrY
這樣來看應(yīng)該是染色體還有很多的變體(有些不是完整的染色體)厨幻,這里就需要在去查查資料關(guān)于染色體的相關(guān)背景知識(shí)了相嵌,解答此題需要先取出這些不完整的染色體
(base) gz16@VM-0-17-ubuntu:~$ cat hg38.tss|awk '{print $2}' | sort | uniq -c | grep -v '_'
6050 chr1
2824 chr10
3449 chr11
2931 chr12
1122 chr13
1883 chr14
2168 chr15
2507 chr16
3309 chr17
873 chr18
3817 chr19
4042 chr2
1676 chr20
868 chr21
1274 chr22
3277 chr3
2250 chr4
2684 chr5
3029 chr6
2720 chr7
2069 chr8
2301 chr9
2 chrM
2553 chrX
414 chrY
發(fā)現(xiàn)還有2 個(gè)基因在chrM上,這個(gè)是什么染色體况脆,需要補(bǔ)一下背景知識(shí)
二十題饭宾、解析hg38.tss
文件,統(tǒng)計(jì)NM
和NR
開頭的數(shù)量漠另,了解NM
和NR
開頭的含義
(base) gz16@VM-0-17-ubuntu:~$ cat hg38.tss |awk '{print $1}'|cut -c 1-2 |sort| uniq -c
51064 NM
15954 NR
關(guān)于NM
和NR
開頭的含義還是需要查看生信菜鳥團(tuán)的基礎(chǔ)知識(shí)專題捏雌。
推薦
生信技能樹公益視頻合輯
生信技能樹簡(jiǎn)書賬號(hào)
生信工程師入門最佳指南
生信技能樹全球公益巡講
招學(xué)徒