序列的比對(duì)及提取已知ID的序列

小白我最近做的事有些雜亂,是時(shí)候整理一波了诗祸。

序列的比對(duì)及提取已知ID的序列

故事是這樣開始的:

故事的主要內(nèi)容

如圖所示镀虐,我們遇到了三個(gè)問題屹培,當(dāng)然默穴,這么difficult的問題我是搞不定的啦,在謝大佬的幫助下這三個(gè)問題是已經(jīng)解決了褪秀,但我們不滿足于此蓄诽,我們想要把和這些探針序列匹配上的轉(zhuǎn)座子序列提取出來,以便我們進(jìn)一步設(shè)計(jì)更多的探針媒吗。謝大佬說剩下的工作比較簡單若专,就把他前面的筆記給我們,讓我們自己把轉(zhuǎn)座子序列提取出來蝴猪。于是乎调衰,照貓畫虎模式開啟。

1st Step

去NCBI把blast+下載到服務(wù)器賬號(hào)自阱,ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/嚎莉,在這個(gè)鏈接里選擇合適的版本,然后

wget -c 網(wǎng)址???????? —— 解壓 —— 添加環(huán)境變量 —— 搞定

注意:-c 斷點(diǎn)續(xù)傳 顧名思義沛豌,劃重點(diǎn)哦

此外還要在citrus.hzau.edu.cn下載甜橙csi.chromosome.fa序列, 并準(zhǔn)備探針序列的fasta格式文件趋箩。

2nd Step

將探針序列blast到甜橙基因組上赃额,生成格式7,以名為“CL”的探針為例叫确,格式7包含以下信息

格式7包含的信息

blast過程也很簡單跳芳,可以寫個(gè)腳本,提交到隊(duì)列中運(yùn)行

blast 腳本

第一行竹勉,打點(diǎn)當(dāng)前目錄下文件飞盆,并將其作為運(yùn)行參數(shù)

第二行,建立基因組的索引文件次乓,數(shù)據(jù)為Nt即DNA

這個(gè) “解析序列ID” 我還沒懂是神馬意思

第三行吓歇,將query序列blast到基因組上,輸出.out7文件

num_threads參數(shù)表明運(yùn)行blast所用CPU數(shù)票腰,應(yīng)該和向服務(wù)器申請(qǐng)的CPU數(shù)一致

3rd Step

從fish_csi.out7文件中提取出各個(gè)探針I(yè)dentity>80%, 且coverage>80%的blast結(jié)果

提取blast結(jié)果城看,寫入*_Ident0.8Cover0.8文件

這是以CL探針為例,我們就是這么一條探針一條探針地提取的杏慰,寫到腳本文件中運(yùn)行测柠,也可能有其他更快捷的辦法,但因?yàn)樘结様?shù)量不多缘滥,為了節(jié)約時(shí)間成本就沒再深入追究鹃愤。

知識(shí)點(diǎn):對(duì)于“&&”的解釋可以參看下面的鏈接,意為 &&左邊的command1執(zhí)行成功(返回0表示成功)后完域,&&右邊的command2才能被執(zhí)行。與之對(duì)應(yīng)的還有“||”和“()”瘩将。

https://www.cnblogs.com/chenggang816/p/10303508.html

4th Step

將上一步生成的每條序列的篩選后的結(jié)果文件轉(zhuǎn)換成bed格式吟税,用于下步分析, 通過vim TransToBed.sh新建腳本文件,并在TransToBed.sh腳本文件中寫入

TransToBed.sh腳本文件中寫入的內(nèi)容

知識(shí)點(diǎn):①Shell腳本for循環(huán)結(jié)構(gòu)如圖所示姿现;②“$”為申請(qǐng)參數(shù)肠仪,形成隊(duì)列;③“echo”為在Shell中打印备典,運(yùn)行腳本后可以看到終端打印出一行行*.Ident0.8Cover0.8的文件异旧,起到監(jiān)視識(shí)別文件是否正確的作用,此外“echo”輸出的結(jié)尾自帶換行符提佣,所以該命令結(jié)束后的 [賬戶名 目錄名]$ 是新開一行的吮蛹,而如果用“cat”命令顯示一個(gè)結(jié)尾無換行符的文本文件后 [賬戶名 目錄名]$ 是緊跟在文檔最后一個(gè)字符后面的,而不是新開一行拌屏,這在有利于在合并FASTA文件之判斷合并前的FASTA文件末尾是否有換行符潮针;④bed文件的分隔符為“\t”;⑤awk工具的If,else語句如圖倚喂;⑥圖中提供了將目錄下后綴相同的文件全部執(zhí)行操作后分別輸出到加了新后綴名的文件中每篷;⑦在目錄下對(duì)文件進(jìn)行批量操作時(shí)同一批操作的文件使用相同的后綴名,方便進(jìn)行批處理(我算是明白為何在NCBI的Gbrowse上檢索下載的序列文件有那么長而且整齊的文件名了)

5th Step

將轉(zhuǎn)座子的.gff3文件轉(zhuǎn)為bed格式。謝大佬不知從哪里拿來了citrus中的轉(zhuǎn)座子的注釋文件焦读,先看看長什么樣子吧

轉(zhuǎn)座子.gff3文件格式

由此看在citrus基因組不同位置上分布的轉(zhuǎn)座子是有不同的ID號(hào)的子库。

知道長啥樣,轉(zhuǎn)起格式來豈不是小菜一碟矗晃?

.gff3轉(zhuǎn)為.bed文件

6th Step

利用bedtools將每條序列的bed格式文件跟csi的TE的gff注釋文件的bed格式進(jìn)行intersect仑嗅,并判斷每條序列完全被某個(gè)TE包含(包含度為80%,填入的數(shù)值為已經(jīng)通過探針長度*0.8計(jì)算過的)

bedTools intersect是求兩個(gè)文件所表示的染色體區(qū)域的交集

bedtools 更多使用方式可參看以下大佬的鏈接

http://www.reibang.com/p/6c3b87301491

提取求交集后得到的轉(zhuǎn)座子的ID

7th Step

我們有了轉(zhuǎn)座子的ID名字下一步就是提取該轉(zhuǎn)座子在染色體上的位置信息了(雖然后來我發(fā)現(xiàn)其實(shí)用bedtools intersect 的 -wo選項(xiàng)輸出的內(nèi)容中有轉(zhuǎn)座子的位置信息喧兄,唉无畔,玩游戲還是要看攻略呀!)康康我是咋弄的吧吠冤。

剛開始浑彰,感覺自己還很機(jī)智

剛開始的錯(cuò)誤腳本

結(jié)果啥也沒輸出來,sort排過續(xù)后的文件根本沒有重復(fù)的拯辙,后來在uniq后面加了 -f 選項(xiàng)郭变,忽略幾行也不奏效,感覺可能是文件太大涯保,于是乎將文件拆分了诉濒,把各個(gè)探針對(duì)應(yīng)的轉(zhuǎn)座子ID分別提出來

把探針CL對(duì)應(yīng)的轉(zhuǎn)座子ID提出來

這里在第一列的名稱行加了“z”,是因?yàn)橛械奶结樏值腁SCII碼是小于chr的夕春,在sort的時(shí)候會(huì)被排在chr前面未荒,提取重復(fù)的時(shí)候就不能提取到位置信息的行

再把所有能和探針有交集的轉(zhuǎn)座子的注釋信息提出來,我借鑒了該鏈接下的回答及志,得到all_te.bed文件

https://segmentfault.com/q/1010000010766902

這個(gè)鏈接讓我學(xué)到了新的東西:如何用awk工具對(duì)兩個(gè)文件進(jìn)行不同卻有關(guān)聯(lián)的操作片排,感謝大佬。結(jié)果出來后發(fā)現(xiàn)得到的行數(shù)比repeat_te.bed的行數(shù)少一百多行速侈,我認(rèn)為應(yīng)該是有的轉(zhuǎn)座子中包含了兩個(gè)探針率寡,在awk雙文件操作時(shí)重復(fù)的下標(biāo)識(shí)別的是同一個(gè)參數(shù),相當(dāng)于把ID一樣的轉(zhuǎn)座子又合并回同一個(gè)轉(zhuǎn)座子了倚搬。

之后就是重復(fù)第一步了

得到CL探針?biāo)鶎?duì)應(yīng)的位置信息

得到這些我就可以去基因組中提序列了

8th Step

首先冶共,將.loca文件轉(zhuǎn)為了.bed文件,之后用bedtools getfasta工具提取序列

提取序列

然后就可以用BioEdit看啦每界,雖然結(jié)果是 并沒有什么卵用 捅僵! 但還是學(xué)到了點(diǎn)東西的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末眨层,一起剝皮案震驚了整個(gè)濱河市命咐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谐岁,老刑警劉巖醋奠,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件榛臼,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡窜司,警方通過查閱死者的電腦和手機(jī)沛善,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來塞祈,“玉大人金刁,你說我怎么就攤上這事∫樾剑” “怎么了尤蛮?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長斯议。 經(jīng)常有香客問我产捞,道長,這世上最難降的妖魔是什么哼御? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任坯临,我火速辦了婚禮,結(jié)果婚禮上恋昼,老公的妹妹穿的比我還像新娘看靠。我一直安慰自己,他們只是感情好液肌,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布挟炬。 她就那樣靜靜地躺著,像睡著了一般嗦哆。 火紅的嫁衣襯著肌膚如雪谤祖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天吝秕,我揣著相機(jī)與錄音,去河邊找鬼空幻。 笑死烁峭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的秕铛。 我是一名探鬼主播约郁,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼但两!你這毒婦竟也來了鬓梅?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤谨湘,失蹤者是張志新(化名)和其女友劉穎绽快,沒想到半個(gè)月后芥丧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡坊罢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年续担,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片活孩。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡物遇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出憾儒,到底是詐尸還是另有隱情询兴,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布起趾,位于F島的核電站诗舰,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏阳掐。R本人自食惡果不足惜始衅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望缭保。 院中可真熱鬧汛闸,春花似錦、人聲如沸艺骂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钳恕。三九已至别伏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間忧额,已是汗流浹背厘肮。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留睦番,地道東北人类茂。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像托嚣,于是被迫代替她去往敵國和親巩检。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • Blast示启,全稱Basic Local Alignment Search Tool兢哭,即"基于局部比對(duì)算法的搜索工具...
    曉僉閱讀 14,865評(píng)論 1 26
  • Bioinformatics Blast 我在Linux Mint中進(jìn)行數(shù)據(jù)分析,使用linuxbrew和cond...
    熱愛大自然的小和尚閱讀 1,981評(píng)論 0 11
  • 雖然高通量測(cè)序分析最常用的操作是將fastq比對(duì)到參考基因組得到BAM文件夫嗓,但偶爾我們也需要提取BAM文件中特定區(qū)...
    xuzhougeng閱讀 25,882評(píng)論 4 31
  • 短短的一生有多少相遇 會(huì)被種植迟螺、澆灌冲秽、培養(yǎng) 平靜的湖水旁 拾起浮動(dòng)的一片殘香 在春天細(xì)雨的黃昏 淋濕的心情被它改變...
    無名之名1閱讀 247評(píng)論 4 7
  • #幸福是需要修出來的~每天進(jìn)步1%~幸福實(shí)修08班~06~李玉珍#富陽 20170923(97/99) 【幸福實(shí)修...
    stx2010閱讀 190評(píng)論 0 1