一到十二題由于比較簡單垂攘,所以我直接給出了命令和輸出搜贤。十二題后詳述了解決方法和做題思路。這次做題后對grep唁影、cut 掂名、awk饺蔑、wc等命令印象更加深刻,學到很多知識孔祸。但是學生初來乍到崔慧,有錯誤在所難免穴墅,還請老師們糾正玄货。
以下是我完成得作業(yè):
一、在任意文件夾下面創(chuàng)建形如 1/2/3/4/5/6/7/8/9 格式的文件夾系列夹界。
二可柿、在創(chuàng)建好的文件夾下面趾痘,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 永票,里面創(chuàng)建文本文件 me.txt
三滥沫、在文本文件 me.txt 里面輸入內(nèi)容:
四兰绣、刪除上面創(chuàng)建的文件夾 1/2/3/4/5/6/7/8/9 及文本文件 me.txt
五缀辩、在任意文件夾下面創(chuàng)建 folder1~5這5個文件夾,然后每個文件夾下面繼續(xù)創(chuàng)建 folder1~5這5個文件夾瓢阴,效果如下
六荣恐、在第五題創(chuàng)建的每一個文件夾下面都 創(chuàng)建第二題文本文件 me.txt 叠穆,內(nèi)容也要一樣!
7.png
七硼被,再次刪除掉前面幾個步驟建立的文件夾及文件
八讶请、下載 http://www.biotrainee.com/jmzeng/igv/test.bed 文件夺溢,后在里面選擇含有 H3K4me3 的那一行是第幾行,該文件總共有幾行嘉汰。
九鞋怀、下載 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解壓焙矛,查看里面的文件夾結(jié)構(gòu)
解壓:unzip
sam ,bam文件詳解點這里抱完,這個作者把這個講得很詳細:
https://pzweuj.github.io/2019/02/15/BAM.html
十蟆盹、打開第九題解壓的文件逾滥,進入 rmDuplicate/samtools/single 文件夾里面败匹,查看后綴為 .sam 的文件哎壳,搞清楚 生物信息學里面的SAM/BAM 定義是什么。
十一尸红、安裝 samtools 軟件:
安裝軟件conda install samtools
十二外里、打開 后綴為BAM 的文件盅蝗,找到產(chǎn)生該文件的命令姆蘸。
十三題逞敷、根據(jù)上面的命令推捐,找到我使用的參考基因組具體有多少條染色體
grep 'chr[1-9,X,Y]' /teach/database/genome/hg38.fa : 查看hg38文件中染色體列
cut -f1|sort|uniq|wc -l:提取染色體列并進行計數(shù)
grep 'chr[1-9,X,Y]' /teach/database/genome/hg38.fa |cut -f1|sort|uniq|wc -l
命令效果如下,這樣就一次性達到了老師要求痊乾。我之前查看了其他同學的作業(yè)椭更,需要輸出好幾個文本虑瀑,挨個去查看和計數(shù),因為我對于取文件的名字實在是頭痛,就直接一次性輸出統(tǒng)計數(shù)了把夸。管道符大家一定要用起來铭污,會起到事半功倍的效果嘹狞。
wc命令的具體使用方法點這里:https://www.cnblogs.com/peida/archive/2012/12/18/2822758.html
十四題磅网、上面的后綴為BAM 的文件的第二列,只有 0 和 16 兩個數(shù)字簸喂,用 cut/sort/uniq等命令統(tǒng)計它們的個數(shù)喻鳄。
開始想直接用cut命令切出文本确封,結(jié)果一串亂碼出來爪喘。bam文件是sam 文件的二進制格式,查看需要用到samtool view命令泛啸。用這個命令將需要的統(tǒng)計的文本打開,然后再用cut命令切出文本第二行吕粹,grep 命令查看指定字段匹耕,wc 統(tǒng)計行數(shù)荠雕,大功告成炸卑!
1,查看0的個數(shù)
samtools view tmp.rmdup.bam|cut -f 2 |grep '0'|wc -l
2盖文,查看16的個數(shù)
samtools view tmp.rmdup.bam|cut -f 2 |grep '16'|wc -l
十五題五续、重新打開 rmDuplicate/samtools/paired 文件夾下面的后綴為BAM 的文件疙驾,再次查看第二列凶伙,并且統(tǒng)計
samtools view tmp.rmdup.bam|cut -f 2|sort|uniq -c
uniq 命令參數(shù)用法看這里:
https://www.runoob.com/linux/linux-comm-uniq.html
注:當重復的行并不相鄰時,uniq 命令是不起作用的它碎,即若文件內(nèi)容為以下時函荣,uniq 命令不起作用,這就是為什么先用sort的原因扳肛。
十六題偏竟、下載 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解壓敞峭,查看里面的文件夾結(jié)構(gòu)踊谋, 這個文件有2.3M,注意留心下載時間及下載速度殖蚕。
1,下載
2沉迹,解壓
3睦疫,tree 命令查看文件夾整體結(jié)構(gòu)
十七題、解壓 sickle-results/single_tmp_fastqc.zip 文件鞭呕,并且進入解壓后的文件夾蛤育,找到 fastqc_data.txt 文件,并且搜索該文本文件以 >>開頭的有多少行?
十八題瓦糕、下載 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件底洗,去NCBI找到TP53/BRCA1等自己感興趣的基因?qū)?refseq數(shù)據(jù)庫 ID,然后找到它們的hg38.tss 文件的哪一行咕娄。
1亥揖,登錄ncbi,選擇gene,找到下圖部分,可以看到每個剪切變體前的以NM開頭的為id號圣勒。
2费变,可以用grep,或者cut 命令查看:
十九題挚歧、解析hg38.tss 文件,統(tǒng)計每條染色體的基因個數(shù)吁峻。
tss 文件內(nèi)容如下:
處理思路和第十三題有些相似:可以由上觀察到昼激,每個染色體號名字后面有多個基因,有的不同基因?qū)嗤娜旧w號锡搜。所以可以先把此文件第2列提取出來,然后用sort和uniq命令對其進行歸類和統(tǒng)計瞧掺。對文本中指定內(nèi)容進行提取可以用cut耕餐,或者awk辟狈,故本題解決方法可以有兩種:
1肠缔,使用cut
cut -f2 hg38.tss|sort|uniq -c|head -n10
輸出結(jié)果如下:
2,使用awk
awk '{print $2}' hg38.tss |sort |uniq -c
二十題明未、解析hg38.tss 文件,統(tǒng)計NM和NR開頭披摄,了解NM和NR開頭的含義勇凭。
1,按指定字段查看hg38.tss 文件
2,對NM和NR進行統(tǒng)計
用指定字符"_",對文本進行分割基显,提取文本NM和NR開頭续镇,再用|sort|uniq -c進行統(tǒng)計
cut -d "_" -f1 hg38.tss |head -n10
效果如下:
NM:mRNA mixed,轉(zhuǎn)錄組產(chǎn)物序列酱虎;成熟mRNA轉(zhuǎn)錄本序列
NR:RNA mixed,非編碼的轉(zhuǎn)錄子序列撒妈,包括結(jié)構(gòu)RNAs杰捂,假基因轉(zhuǎn)子等