homework——生物技能樹Linux練習題解答

一到十二題由于比較簡單垂攘,所以我直接給出了命令和輸出搜贤。十二題后詳述了解決方法和做題思路。這次做題后對grep唁影、cut 掂名、awk饺蔑、wc等命令印象更加深刻,學到很多知識孔祸。但是學生初來乍到崔慧,有錯誤在所難免穴墅,還請老師們糾正玄货。
以下是我完成得作業(yè):
一、在任意文件夾下面創(chuàng)建形如 1/2/3/4/5/6/7/8/9 格式的文件夾系列夹界。

1.png

2.png

二可柿、在創(chuàng)建好的文件夾下面趾痘,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 永票,里面創(chuàng)建文本文件 me.txt
三滥沫、在文本文件 me.txt 里面輸入內(nèi)容:

3.png

四兰绣、刪除上面創(chuàng)建的文件夾 1/2/3/4/5/6/7/8/9 及文本文件 me.txt
五缀辩、在任意文件夾下面創(chuàng)建 folder1~5這5個文件夾,然后每個文件夾下面繼續(xù)創(chuàng)建 folder1~5這5個文件夾瓢阴,效果如下
5.png

6.png

六荣恐、在第五題創(chuàng)建的每一個文件夾下面都 創(chuàng)建第二題文本文件 me.txt 叠穆,內(nèi)容也要一樣!
7.png

8.png

七硼被,再次刪除掉前面幾個步驟建立的文件夾及文件


9.png

八讶请、下載 http://www.biotrainee.com/jmzeng/igv/test.bed 文件夺溢,后在里面選擇含有 H3K4me3 的那一行是第幾行,該文件總共有幾行嘉汰。

10.png

九鞋怀、下載 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解壓焙矛,查看里面的文件夾結(jié)構(gòu)

11.png

解壓:unzip


12.png

13.png
14.png
15.png

sam ,bam文件詳解點這里抱完,這個作者把這個講得很詳細:
https://pzweuj.github.io/2019/02/15/BAM.html

十蟆盹、打開第九題解壓的文件逾滥,進入 rmDuplicate/samtools/single 文件夾里面败匹,查看后綴為 .sam 的文件哎壳,搞清楚 生物信息學里面的SAM/BAM 定義是什么。


16.png

17.png

十一尸红、安裝 samtools 軟件:
安裝軟件conda install samtools


18.png

十二外里、打開 后綴為BAM 的文件盅蝗,找到產(chǎn)生該文件的命令姆蘸。


19.png

十三題逞敷、根據(jù)上面的命令推捐,找到我使用的參考基因組具體有多少條染色體
grep 'chr[1-9,X,Y]' /teach/database/genome/hg38.fa : 查看hg38文件中染色體列
cut -f1|sort|uniq|wc -l:提取染色體列并進行計數(shù)

grep 'chr[1-9,X,Y]' /teach/database/genome/hg38.fa |cut -f1|sort|uniq|wc -l

命令效果如下,這樣就一次性達到了老師要求痊乾。我之前查看了其他同學的作業(yè)椭更,需要輸出好幾個文本虑瀑,挨個去查看和計數(shù),因為我對于取文件的名字實在是頭痛,就直接一次性輸出統(tǒng)計數(shù)了把夸。管道符大家一定要用起來铭污,會起到事半功倍的效果嘹狞。


20.png

wc命令的具體使用方法點這里:https://www.cnblogs.com/peida/archive/2012/12/18/2822758.html

十四題磅网、上面的后綴為BAM 的文件的第二列,只有 0 和 16 兩個數(shù)字簸喂,用 cut/sort/uniq等命令統(tǒng)計它們的個數(shù)喻鳄。
開始想直接用cut命令切出文本确封,結(jié)果一串亂碼出來爪喘。bam文件是sam 文件的二進制格式,查看需要用到samtool view命令泛啸。用這個命令將需要的統(tǒng)計的文本打開,然后再用cut命令切出文本第二行吕粹,grep 命令查看指定字段匹耕,wc 統(tǒng)計行數(shù)荠雕,大功告成炸卑!
1,查看0的個數(shù)

samtools view tmp.rmdup.bam|cut -f 2 |grep '0'|wc -l
21.png

2盖文,查看16的個數(shù)

samtools view tmp.rmdup.bam|cut -f 2 |grep '16'|wc -l
22.png

十五題五续、重新打開 rmDuplicate/samtools/paired 文件夾下面的后綴為BAM 的文件疙驾,再次查看第二列凶伙,并且統(tǒng)計

samtools view tmp.rmdup.bam|cut -f 2|sort|uniq -c

23.png

uniq 命令參數(shù)用法看這里:
https://www.runoob.com/linux/linux-comm-uniq.html

注:當重復的行并不相鄰時,uniq 命令是不起作用的它碎,即若文件內(nèi)容為以下時函荣,uniq 命令不起作用,這就是為什么先用sort的原因扳肛。

十六題偏竟、下載 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解壓敞峭,查看里面的文件夾結(jié)構(gòu)踊谋, 這個文件有2.3M,注意留心下載時間及下載速度殖蚕。
1,下載

24.png

2沉迹,解壓
25.png

3睦疫,tree 命令查看文件夾整體結(jié)構(gòu)
26.png

十七題、解壓 sickle-results/single_tmp_fastqc.zip 文件鞭呕,并且進入解壓后的文件夾蛤育,找到 fastqc_data.txt 文件,并且搜索該文本文件以 >>開頭的有多少行?


27.png

28.png

十八題瓦糕、下載 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件底洗,去NCBI找到TP53/BRCA1等自己感興趣的基因?qū)?refseq數(shù)據(jù)庫 ID,然后找到它們的hg38.tss 文件的哪一行咕娄。
1亥揖,登錄ncbi,選擇gene,找到下圖部分,可以看到每個剪切變體前的以NM開頭的為id號圣勒。
29.png

2费变,可以用grep,或者cut 命令查看:
30.png

十九題挚歧、解析hg38.tss 文件,統(tǒng)計每條染色體的基因個數(shù)吁峻。
tss 文件內(nèi)容如下:


31.png

處理思路和第十三題有些相似:可以由上觀察到昼激,每個染色體號名字后面有多個基因,有的不同基因?qū)嗤娜旧w號锡搜。所以可以先把此文件第2列提取出來,然后用sort和uniq命令對其進行歸類和統(tǒng)計瞧掺。對文本中指定內(nèi)容進行提取可以用cut耕餐,或者awk辟狈,故本題解決方法可以有兩種:
1肠缔,使用cut

cut -f2 hg38.tss|sort|uniq -c|head -n10

輸出結(jié)果如下:


32.png

2,使用awk

awk '{print $2}' hg38.tss |sort |uniq -c
33.png

二十題明未、解析hg38.tss 文件,統(tǒng)計NM和NR開頭披摄,了解NM和NR開頭的含義勇凭。
1,按指定字段查看hg38.tss 文件

?
34.png
35.png

2,對NM和NR進行統(tǒng)計
用指定字符"_",對文本進行分割基显,提取文本NM和NR開頭续镇,再用|sort|uniq -c進行統(tǒng)計

cut -d "_" -f1 hg38.tss |head -n10

效果如下:


36.png

NM:mRNA mixed,轉(zhuǎn)錄組產(chǎn)物序列酱虎;成熟mRNA轉(zhuǎn)錄本序列
NR:RNA mixed,非編碼的轉(zhuǎn)錄子序列撒妈,包括結(jié)構(gòu)RNAs杰捂,假基因轉(zhuǎn)子等

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嫁佳,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌赌蔑,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件愕提,死亡現(xiàn)場離奇詭異浅侨,居然都是意外死亡,警方通過查閱死者的電腦和手機不见,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進店門井濒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瑞你,“玉大人,你說我怎么就攤上這事纺铭。” “怎么了扫倡?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長语淘。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任垃沦,我火速辦了婚禮,結(jié)果婚禮上靶剑,老公的妹妹穿的比我還像新娘坑匠。我一直安慰自己设凹,他們只是感情好,可當我...
    茶點故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般退腥。 火紅的嫁衣襯著肌膚如雪嗅蔬。 梳的紋絲不亂的頭發(fā)上澜术,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死泞边,一個胖子當著我的面吹牛椭蹄,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播翼馆,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼携龟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起桦卒,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤碌更,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后房午,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了欧引。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡攀操,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情辕宏,我是刑警寧澤闰非,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布访锻,位于F島的核電站铸抑,受9級特大地震影響阱冶,放射性物質(zhì)發(fā)生泄漏刁憋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一木蹬、第九天 我趴在偏房一處隱蔽的房頂上張望职祷。 院中可真熱鬧,春花似錦届囚、人聲如沸有梆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泥耀。三九已至,卻和暖如春蛔添,著一層夾襖步出監(jiān)牢的瞬間痰催,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工迎瞧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留夸溶,地道東北人。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓凶硅,卻偏偏與公主長得像缝裁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子足绅,可洞房花燭夜當晚...
    茶點故事閱讀 44,901評論 2 355

推薦閱讀更多精彩內(nèi)容