homework——生物技能樹Linux練習題解答

一到十二題由于比較簡單垂攘，所以我直接給出了命令和輸出搜贤。十二題后詳述了解決方法和做題思路。這次做題后對grep唁影、cut 掂名、awk饺蔑、wc等命令印象更加深刻，學到很多知識孔祸。但是學生初來乍到崔慧，有錯誤在所難免穴墅，還請老師們糾正玄货。
以下是我完成得作業(yè)：
一、在任意文件夾下面創(chuàng)建形如 1/2/3/4/5/6/7/8/9 格式的文件夾系列夹界。

1.png

2.png

二可柿、在創(chuàng)建好的文件夾下面趾痘，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 永票，里面創(chuàng)建文本文件 me.txt
三滥沫、在文本文件 me.txt 里面輸入內(nèi)容:

3.png

四兰绣、刪除上面創(chuàng)建的文件夾 1/2/3/4/5/6/7/8/9 及文本文件 me.txt
五缀辩、在任意文件夾下面創(chuàng)建 folder1~5這5個文件夾，然后每個文件夾下面繼續(xù)創(chuàng)建 folder1~5這5個文件夾瓢阴，效果如下

5.png

6.png

六荣恐、在第五題創(chuàng)建的每一個文件夾下面都創(chuàng)建第二題文本文件 me.txt 叠穆，內(nèi)容也要一樣!
7.png

8.png

七硼被，再次刪除掉前面幾個步驟建立的文件夾及文件

9.png

八讶请、下載 http://www.biotrainee.com/jmzeng/igv/test.bed 文件夺溢，后在里面選擇含有 H3K4me3 的那一行是第幾行，該文件總共有幾行嘉汰。

10.png

九鞋怀、下載 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件，并且解壓焙矛，查看里面的文件夾結(jié)構(gòu)

11.png

解壓：unzip

12.png

13.png

14.png

15.png

sam ,bam文件詳解點這里抱完，這個作者把這個講得很詳細：
https://pzweuj.github.io/2019/02/15/BAM.html

十蟆盹、打開第九題解壓的文件逾滥，進入 rmDuplicate/samtools/single 文件夾里面败匹，查看后綴為 .sam 的文件哎壳，搞清楚生物信息學里面的SAM/BAM 定義是什么。

16.png

17.png

十一尸红、安裝 samtools 軟件:
安裝軟件conda install samtools

18.png

十二外里、打開后綴為BAM 的文件盅蝗，找到產(chǎn)生該文件的命令姆蘸。

19.png

十三題逞敷、根據(jù)上面的命令推捐，找到我使用的參考基因組具體有多少條染色體
grep 'chr[1-9,X,Y]' /teach/database/genome/hg38.fa ：查看hg38文件中染色體列
cut -f1|sort|uniq|wc -l：提取染色體列并進行計數(shù)

grep 'chr[1-9,X,Y]' /teach/database/genome/hg38.fa |cut -f1|sort|uniq|wc -l

命令效果如下，這樣就一次性達到了老師要求痊乾。我之前查看了其他同學的作業(yè)椭更，需要輸出好幾個文本虑瀑，挨個去查看和計數(shù)，因為我對于取文件的名字實在是頭痛，就直接一次性輸出統(tǒng)計數(shù)了把夸。管道符大家一定要用起來铭污，會起到事半功倍的效果嘹狞。

20.png

wc命令的具體使用方法點這里：https://www.cnblogs.com/peida/archive/2012/12/18/2822758.html

十四題磅网、上面的后綴為BAM 的文件的第二列，只有 0 和 16 兩個數(shù)字簸喂，用 cut/sort/uniq等命令統(tǒng)計它們的個數(shù)喻鳄。
開始想直接用cut命令切出文本确封，結(jié)果一串亂碼出來爪喘。bam文件是sam 文件的二進制格式，查看需要用到samtool view命令泛啸。用這個命令將需要的統(tǒng)計的文本打開，然后再用cut命令切出文本第二行吕粹，grep 命令查看指定字段匹耕，wc 統(tǒng)計行數(shù)荠雕，大功告成炸卑！
1,查看0的個數(shù)

samtools view tmp.rmdup.bam|cut -f 2 |grep '0'|wc -l

21.png

2盖文，查看16的個數(shù)

samtools view tmp.rmdup.bam|cut -f 2 |grep '16'|wc -l

22.png

十五題五续、重新打開 rmDuplicate/samtools/paired 文件夾下面的后綴為BAM 的文件疙驾，再次查看第二列凶伙，并且統(tǒng)計

samtools view tmp.rmdup.bam|cut -f 2|sort|uniq -c

23.png

uniq 命令參數(shù)用法看這里：
https://www.runoob.com/linux/linux-comm-uniq.html

注：當重復的行并不相鄰時，uniq 命令是不起作用的它碎，即若文件內(nèi)容為以下時函荣，uniq 命令不起作用，這就是為什么先用sort的原因扳肛。

十六題偏竟、下載 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解壓敞峭，查看里面的文件夾結(jié)構(gòu)踊谋，這個文件有2.3M，注意留心下載時間及下載速度殖蚕。
1，下載

24.png

2沉迹，解壓

25.png

3睦疫，tree 命令查看文件夾整體結(jié)構(gòu)

26.png

十七題、解壓 sickle-results/single_tmp_fastqc.zip 文件鞭呕，并且進入解壓后的文件夾蛤育，找到 fastqc_data.txt 文件，并且搜索該文本文件以 >>開頭的有多少行？

27.png

28.png

十八題瓦糕、下載 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件底洗，去NCBI找到TP53/BRCA1等自己感興趣的基因?qū)?refseq數(shù)據(jù)庫 ID，然后找到它們的hg38.tss 文件的哪一行咕娄。
1亥揖，登錄ncbi,選擇gene,找到下圖部分，可以看到每個剪切變體前的以NM開頭的為id號圣勒。

29.png

2费变，可以用grep，或者cut 命令查看：

30.png

十九題挚歧、解析hg38.tss 文件，統(tǒng)計每條染色體的基因個數(shù)吁峻。
tss 文件內(nèi)容如下：

31.png

處理思路和第十三題有些相似：可以由上觀察到昼激，每個染色體號名字后面有多個基因，有的不同基因?qū)嗤娜旧w號锡搜。所以可以先把此文件第2列提取出來，然后用sort和uniq命令對其進行歸類和統(tǒng)計瞧掺。對文本中指定內(nèi)容進行提取可以用cut耕餐，或者awk辟狈，故本題解決方法可以有兩種：
1肠缔，使用cut

cut -f2 hg38.tss|sort|uniq -c|head -n10

輸出結(jié)果如下：

32.png

2，使用awk

awk '{print $2}' hg38.tss |sort |uniq -c

33.png

二十題明未、解析hg38.tss 文件，統(tǒng)計NM和NR開頭披摄，了解NM和NR開頭的含義勇凭。
1,按指定字段查看hg38.tss 文件

34.png

35.png

2，對NM和NR進行統(tǒng)計
用指定字符"_",對文本進行分割基显，提取文本NM和NR開頭续镇，再用|sort|uniq -c進行統(tǒng)計

cut -d "_" -f1 hg38.tss |head -n10

效果如下：

36.png

NM:mRNA mixed，轉(zhuǎn)錄組產(chǎn)物序列酱虎；成熟mRNA轉(zhuǎn)錄本序列
NR:RNA mixed，非編碼的轉(zhuǎn)錄子序列撒妈，包括結(jié)構(gòu)RNAs杰捂，假基因轉(zhuǎn)子等

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末嫁佳，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌赌蔑，老刑警劉巖，帶你破解...
沈念sama閱讀 218,036評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件愕提，死亡現(xiàn)場離奇詭異浅侨，居然都是意外死亡，警方通過查閱死者的電腦和手機不见，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,046評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門井濒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來瑞你，“玉大人，你說我怎么就攤上這事纺铭。” “怎么了扫倡？”我有些...
開封第一講書人閱讀 164,411評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長语淘。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,622評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任垃沦，我火速辦了婚禮，結(jié)果婚禮上靶剑，老公的妹妹穿的比我還像新娘坑匠。我一直安慰自己设凹，他們只是感情好，可當我...
茶點故事閱讀 67,661評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般退腥。火紅的嫁衣襯著肌膚如雪嗅蔬。梳的紋絲不亂的頭發(fā)上澜术，一...
開封第一講書人閱讀 51,521評論 1贊 304
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死泞边，一個胖子當著我的面吹牛椭蹄，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播翼馆，決...
沈念sama閱讀 40,288評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼携龟！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起桦卒，我...
開封第一講書人閱讀 39,200評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤碌更，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后房午，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,644評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,837評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了欧引。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,953評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡攀操，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情辕宏，我是刑警寧澤闰非，帶...
沈念sama閱讀 35,673評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布访锻，位于F島的核電站铸抑，受9級特大地震影響阱冶，放射性物質(zhì)發(fā)生泄漏刁憋。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,281評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一木蹬、第九天我趴在偏房一處隱蔽的房頂上張望职祷。院中可真熱鬧，春花似錦届囚、人聲如沸有梆。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,889評論 0贊 22
一樁弒父案意系，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽泥耀。三九已至，卻和暖如春蛔添，著一層夾襖步出監(jiān)牢的瞬間痰催，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,011評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工迎瞧，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留夸溶，地道東北人。一個月前我還...
沈念sama閱讀 48,119評論 3贊 370
代替公主和親
正文我出身青樓凶硅，卻偏偏與公主長得像缝裁，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子足绅，可洞房花燭夜當晚...
茶點故事閱讀 44,901評論 2贊 355

homework——生物技能樹Linux練習題解答

注：當重復的行并不相鄰時，uniq 命令是不起作用的它碎，即若文件內(nèi)容為以下時函荣，uniq 命令不起作用，這就是為什么先用sort的原因扳肛。

推薦閱讀更多精彩內(nèi)容