來源:http://www.bio-info-trainee.com/2900.html
解答視頻:https://www.bilibili.com/video/av28813815/?p=17
一洛搀、在任意文件夾下面創(chuàng)建形如 1/2/3/4/5/6/7/8/9
格式的文件夾系列榛搔。
mkdir test
cd test
mkdir -p 1/2/3/4/5/6/7/8/9
二拿愧、在創(chuàng)建好的文件夾下面树枫,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9
萝嘁,里面創(chuàng)建文本文件 me.txt
touch ./1/2/3/4/5/6/7/8/9/me.txt
tree
.
└── 1
└── 2
└── 3
└── 4
└── 5
└── 6
└── 7
└── 8
└── 9
└── me.txt
三昆箕、在文本文件 me.txt
里面輸入內(nèi)容:
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
vim ./1/2/3/4/5/6/7/8/9/me.txt
#按下i鍵镊屎,切換為插入模式发乔,輸入以下內(nèi)容:
# Go to: http://www.biotrainee.com/
# I love bioinfomatics.
# And you ?
#上面的語句不用帶“#”喲
#退出命令是,按 ESC 鍵跳到命令模式盯桦,然后輸入 :q (不保存)或者 :wq (保存) 退出慈俯。
cat ./1/2/3/4/5/6/7/8/9/me.txt
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
四、刪除上面創(chuàng)建的文件夾 1/2/3/4/5/6/7/8/9 及文本文件 me.txt
rm --help #查看幫助文檔
rm -rf 1
五拥峦、在任意文件夾下面創(chuàng)建 folder1~5
這5個文件夾贴膘,然后每個文件夾下面繼續(xù)創(chuàng)建 folder1~5
這5個文件夾,效果如下:
mkdir -p folder{1..5}/folder{1..5}
ls *
六略号、在第五題創(chuàng)建的每一個文件夾下面都 創(chuàng)建第二題文本文件 me.txt
刑峡,內(nèi)容也要一樣。(這個題目難度超綱玄柠,講義一個月后再回過頭來做)
echo folder{1..5}/folder{1..5} | xargs -n 1
echo folder{1..5}/folder{1..5} | xargs -n 1 cp me.txt -v
xargs --help
七突梦,再次刪除掉前面幾個步驟建立的文件夾及文件
rm -rf folder*
tree
八、下載 http://www.biotrainee.com/jmzeng/igv/test.bed
文件羽利,后在里面選擇含有 H3K4me3
的那一行是第幾行宫患,該文件總共有幾行。
wget http://www.biotrainee.com/jmzeng/igv/test.bed
ls -lh
#解法1
less -S test.bed
/H3K4me3 #按下回車
#解法2
vim test.bed
:set nu
:/H3K4me3
#解法3
grep -n H3K4me3 test.bed
九这弧、下載 http://www.biotrainee.com/jmzeng/rmDuplicate.zip
文件娃闲,并且解壓,查看里面的文件夾結(jié)構(gòu)当宴。
wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip
ls -ll
unzip rmDuplicate.zip
cd rmDuplicate
tree
十畜吊、打開第九題解壓的文件,進入 rmDuplicate/samtools/single
文件夾里面户矢,查看后綴為 .sam
的文件玲献,搞清楚 生物信息學(xué)里面的SAM/BAM
定義是什么。
cd ./rmDuplicate/samtools/single/
less -S tmp.sam #最佳查看方式
cat tmp.sam
vim tmp.sam
十一梯浪、安裝 samtools
軟件
- 安裝Miniconda3
mkdir -p ~/biosoft
cd ~/biosoft
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
2.設(shè)置conda鏡像
source ~/.bashrc
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
3.調(diào)用conda 安裝軟件
conda install -y samtools
如果你對一個軟件不了解的話捌年,那么安裝之前在https://bioconda.github.io/recipes.html,檢索該軟件包是否存在挂洛,或者使用 "conda search packagename"進行檢索礼预。
十二、打開 后綴為BAM
的文件虏劲,找到產(chǎn)生該文件的命令托酸。 提示一下命令是:
/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp
查看前5行
#cd rmDuplicate/samtools/single(路徑)
tree
.
├── readme.txt
├── tmp.header
├── tmp.rmdup.bam
├── tmp.rmdup.vcf.gz
├── tmp.sam
├── tmp.sorted.bam
└── tmp.sorted.vcf.gz
zless -S tmp.rmdup.bam | head -n 5
BAM@@HD VN:1.0 SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr10 LN:133797422
@SQ SN:chr11 LN:135086622
@SQ SN:chr11_KI270721v1_random LN:100316
十三題褒颈、根據(jù)上面的命令,找到我使用的參考基因組 /home/jianmingzeng/reference/index/bowtie/hg38
具體有多少條染色體励堡。
samtools view -H tmp.rmdup.bam | head -n 20
samtools view -H tmp.rmdup.bam | awk '{print $2}' | sort |uniq -c| grep -v '_'
1 ID:bowtie2
1 SN:chr1
1 SN:chr10
1 SN:chr11
1 SN:chr12
1 SN:chr13
1 SN:chr14
1 SN:chr15
1 SN:chr16
1 SN:chr17
1 SN:chr18
1 SN:chr19
1 SN:chr2
1 SN:chr20
1 SN:chr21
1 SN:chr22
1 SN:chr3
1 SN:chr4
1 SN:chr5
1 SN:chr6
1 SN:chr7
1 SN:chr8
1 SN:chr9
1 SN:chrM
1 SN:chrX
1 SN:chrY
1 VN:1.0
十四題谷丸、上面的后綴為bam
的文件的第二列,只有 0 和 16 兩個數(shù)字应结,用 cut/sort/uniq
等命令統(tǒng)計它們的個數(shù)刨疼。
因為數(shù)據(jù)不同,使用的數(shù)據(jù)統(tǒng)計如下:
samtools view tmp.sorted.bam | head
samtools view tmp.sorted.bam | awk '{print $2}' | sort | uniq -c
29 0
24 16
# 此外鹅龄,我統(tǒng)計了 tmp.sam文件揩慕,代碼如下:
zless -S tmp.sam | head -n 12
SRR1042600.42157053 0 chr1 629895 42 51M * 0 0 ATAACCAATACTACCAATCANTACTCATCATTAATAATCATAATGGCTATA CCCFFFFFHHHHHJJJJJJJ#4AGHJJIIJJIIIIIJJJJIJIIIIJJIJI AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:11C8A30 YT:Z:UU
SRR1042600.42212881 0 chr1 629895 42 51M * 0 0 ATAACCAATACTACCAATCANTACTCATCATTAATAATCATAATGGCTATA @@<FDFFBFDHHFJEIIGJI#3AFHGEHEIJIIGIIGGIJIIJIGIIGIIJ AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:11C8A30 YT:Z:UU
SRR1042600.12010763 16 chr1 629895 24 51M * 0 0 ATAACCAATACTTCTAATCAAAACTCATCATTAATAATCATAATGGCTATA ?4B?1*4DD?11*1*?+22+<3F:3@EC:CC4EA,DEDDDDD?D3B:==+; AS:i:-10XN:i:0 XM:i:4 XO:i:0 XG:i:0 NM:i:4 MD:Z:11C0A1C6T29 YT:Z:UU
SRR1042600.29629551 16 chr1 629895 40 51M * 0 0 ATAACCAATACTACCAATCACTACTCATCATTAATAATCATAATGGCTATA HGF?JJHHFDHHGJJIHDFA+E?JIJJIIHGJJJJJJJHHHHHFFFFFCC@ AS:i:-8 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:11C8A30 YT:Z:UU
SRR1042600.41910745 0 chr1 629896 42 51M * 0 0 TAACCAATACTACCAATCAANACTCATCATTAATAATCATAATGGCTATAG CC@FFFFFHHHHGIIHIJJJ#3<CFHCGGIIIJJJJJJJJIGGFHIIJFII AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:10C9T30 YT:Z:UU
SRR1042600.14329856 16 chr1 629896 8 18M1I32M * 0 0 AAACCAAATCCTCCAATCAAATCCTCATCATTAATAATCATAATGGCTATA #############################@IHHGCE9GHFHHHDDDDD<@@ AS:i:-18 XN:i:0 XM:i:5 XO:i:1 XG:i:1 NM:i:6 MD:Z:0T6T0A2A9A28 YT:Z:UU
SRR1042600.15078214 16 chr1 629896 40 51M * 0 0 TAACCAATACTACCAATCAATACCCATCATTAATAATCATAATGGCTATAG 9?1EFDD4CE?1F@?F<HFA<<C+F9HBC<<FEBBC4GD<=+8DDDDA=;1 AS:i:-8 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:10C12T27 YT:Z:UU
SRR1042600.52533601 16 chr1 629896 40 51M * 0 0 TAACCAATACTACCAATCAATCCTCATCATTAATAATCATAATGGCTATAG D?0?*?1*?C?*EGC99>FA+3FBHBEBCA4HCC<:FFFFFF<DB?BD<@@ AS:i:-8 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:10C10A29 YT:Z:UU
SRR1042600.41649846 0 chr1 629897 42 51M * 0 0 AACCAATACTACCAATCAATNCTCATCATTAATAATCATAATGGCTATAGC :?=DB=ABCF?FF>G<<<?F#3<C?CFHE@91?GFFEGEEEDD<?FADBG> AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:9C10A30 YT:Z:UU
SRR1042600.68213884 16 chr1 629898 40 51M * 0 0 ACCAATACGACCAATCAATACTCAACATCAATAATCATAATGGCTATAGCA #@B?0)1)*19FEC<22<+<+3,33CA,+:>F<B?:@C<4:=,:DADD?<? AS:i:-8 XN:i:0 XM:i:3 XO:i:0 XG:i:0 NM:i:3 MD:Z:8C15T3T22 YT:Z:UU
SRR1042600.41495229 0 chr1 629899 42 51M * 0 0 CCAATACTACCAATCAATACNCATCATTAATAATCATAATGGCTATAGCAA CCCFFFFFHHHHHJJJJJJI#4AFHIJJIJJJJIJJIJJJIJIJIJJJJHG AS:i:-6 XN:i:0 XM:i:2 XO:i:0 XG:i:0 NM:i:2 MD:Z:7C12T30 YT:Z:UU
SRR1042600.14534938 16 chr1 629899 8 51M * 0 0 AATCTCCCCCAATTCAATACTCATCATTAATAATCATAATGGCTATAGCAA ######################GFIICJJGIIIIIGHF>GHGHFFFFF@@C AS:i:-16XN:i:0 XM:i:8 XO:i:0 XG:i:0 NM:i:8 MD:Z:0C0C0A0A1A2A1C1A38 YT:Z:UU
cat tmp.sam | awk '{print $2}' | sort | uniq -c
29 0
24 16
十五題、重新打開 rmDuplicate/samtools/paired
文件夾下面的后綴為BAM
的文件扮休,再次查看第二列迎卤,并且統(tǒng)計。
cd /test/rmDuplicate/samtools/paired
ls -ll
samtools view tmp.sorted.bam | cut -f 2|sort |uniq -c
8 147
3 163
1 323
1 353
1 371
1 387
1 433
3 83
2 97
9 99
十六題肛炮、下載 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
文件止吐,并且解壓,查看里面的文件夾結(jié)構(gòu)侨糟, 這個文件有2.3M,注意留心下載時間及下載速度瘩燥。
wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
unzip sickle-results.zip
cd sickle-results
tree
.
├── command.txt
├── single_tmp_fastqc.html
├── single_tmp_fastqc.zip
├── test1_fastqc.html
├── test1_fastqc.zip
├── test2_fastqc.html
├── test2_fastqc.zip
├── trimmed_output_file1_fastqc.html
├── trimmed_output_file1_fastqc.zip
├── trimmed_output_file2_fastqc.html
└── trimmed_output_file2_fastqc.zip
十七題秕重、解壓 sickle-results/single_tmp_fastqc.zip
文件,并且進入解壓后的文件夾厉膀,找到 fastqc_data.txt
文件溶耘,并且搜索該文本文件以 >>
開頭的有多少行?
unzip single_tmp_fastqc.zip
cd single_tmp_fastqc/
less -S fastqc_data.txt
cat fastqc_data.txt | awk '/^>>/{print $0}'| wc -l
24
十八題服鹅、下載 http://www.biotrainee.com/jmzeng/tmp/hg38.tss
文件凳兵,去NCBI找到TP53/BRCA1
等自己感興趣的基因?qū)?yīng)的 refseq數(shù)據(jù)庫
ID,然后找到它們的hg38.tss
文件的哪一行企软。
https://www.ncbi.nlm.nih.gov/gene/7157
cd ~/test
wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss
head hg38.tssp NR_046018 hg38.tss
NR_046018 chr1 9874 13874 0
grep -n NR_046018 hg38.tss
十九題庐扫、解析hg38.tss
文件,統(tǒng)計每條染色體的基因個數(shù)仗哨。
cat hg38.tss|awk '{print $2}' |sort |uniq -c
6050 chr1
2824 chr10
2 chr10_GL383545v1_alt
10 chr10_GL383546v1_alt
2 chr10_KI270825v1_alt
.....
#去掉后面的碎片基因
cat hg38.tss|awk '{print $2}' | sort | uniq -c | grep -v '_'
6050 chr1
2824 chr10
3449 chr11
2931 chr12
1122 chr13
1883 chr14
2168 chr15
2507 chr16
3309 chr17
873 chr18
3817 chr19
4042 chr2
1676 chr20
868 chr21
1274 chr22
3277 chr3
2250 chr4
2684 chr5
3029 chr6
2720 chr7
2069 chr8
2301 chr9
2 chrM
2553 chrX
414 chrY
二十題形庭、解析hg38.tss
文件,統(tǒng)計NM
和NR
開頭的熟練厌漂,了解NM
和NR
開頭的含義
cat hg38.tss |awk '{print $1}'|cut -c 1-2 |sort| uniq -c
51064 NM
15954 NR
生信技能樹公益視頻合輯:學(xué)習(xí)順序是linux萨醒,r,軟件安裝苇倡,geo富纸,小技巧囤踩,ngs組學(xué)!
B站鏈接:https://m.bilibili.com/space/338686099
YouTube鏈接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程師入門最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
生信技能樹(爆款入門培訓(xùn)課)巡講 https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247489185&idx=1&sn=2ad07decde5b709ed03d5c315bca0cb6&chksm=9b48561aac3fdf0c72e67aef29faa8e156a84be4f935b6585fffcaae6f186383decc96813f38&mpshare=1&scene=23&srcid=#rd
生信技能樹 - 簡書 http://www.reibang.com/u/d645f768d2d5