生信小技巧:實(shí)用的one-liners命令(2)

接著上一次內(nèi)容装蓬,繼續(xù)和大家分享常用實(shí)用的one-liners命令只嚣。

sort, uniq, cut, etc.

將文件中每一行的行號(hào)進(jìn)行標(biāo)識(shí):

cat -n file.txt

對(duì)文件中獨(dú)特的unique lines進(jìn)行計(jì)數(shù)(每周都會(huì)用到不下五次以上):

cat file.txt | sort -u | wc -l

對(duì)兩個(gè)單行的文件進(jìn)行sort穗椅,然后提取共有的元素(可以用來提取目標(biāo)基因ID):

sort -u file1 > a
sort -u file2 > b
comm -12 a b

對(duì)第幾行的數(shù)字進(jìn)行從小到大的排序:

sort -gk9 file.txt

隨機(jī)抽打碎文件的順序蔓倍。并抽取1000行 (個(gè)人用過來隨機(jī)抽取VCF文件中的變異位點(diǎn),來畫系統(tǒng)發(fā)育樹):

shuf file.txt | head -n 10

find, xargs, and GNU parallel

在目前的directory中遞歸地搜索以.bam 結(jié)尾的文件:

find . -name "*.bam"

刪除當(dāng)前目錄下所有以.bam結(jié)尾的文件(千萬要小心使用):

find . -name "*.bam" | xargs rm

將所有以.txt結(jié)尾的文件重新命名為將.bak 結(jié)尾的文件(一般用來backup一些文件敞咧,當(dāng)你想做一些大的處理或者改變的時(shí)候):

find . -name "*.txt" | sed "s/\.txt$//" | xargs -i echo mv {}.txt {}.bak | sh

這里會(huì)提到parallel漠魏,一個(gè)很強(qiáng)并行運(yùn)行文件的工具,下載鏈接:https://www.gnu.org/software/parallel/

同時(shí)并行運(yùn)行12個(gè)fastqc的jobs:

find *.fq | parallel -j 12 "fastqc {} --outdir ."

并行index你的bam file文件妄均,這里添加了一個(gè)(--dry-run)的option柱锹,表示只會(huì)把命令打印出來,并不會(huì)真正的執(zhí)行丰包,可以用來給我檢查命令行有沒有按照我們的要求輸入對(duì):

find *.bam | parallel --dry-run 'samtools index {}'

seqtk

如果有了解過的同學(xué)禁熏,都會(huì)知道seqtk是一個(gè)很強(qiáng)大的Fasta/Fastq處理的一個(gè)工具,下載地址https://github.com/lh3/seqtk,或者直接通過conda install seqtk去安裝邑彪。

將fastq格式的文件轉(zhuǎn)化成fasta格式

seqtk seq -a in.fq.gz > out.fa

提取name.list文件中含有的序列名稱的fa文件瞧毙,在name.list(也可以輸入bed文件)中一行有一個(gè)對(duì)應(yīng)的header名稱

seqtk subseq in.fa name.list > out.fa

從fastq文件中,隨機(jī)抽取10000 read:

seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq

將頭尾兩端低質(zhì)量的堿基切掉:

seqtk trimfq in.fq > out.fq

對(duì)Gff文件的處理

Gff文件也是一個(gè)我們?nèi)粘=?jīng)常遇到要處理的文件

找出你成功被注釋的序列名:

cut -s -f 1,9 yourannots.gff3 | grep $'\t' | cut -f 1 | sort | uniq

找出你gff文件中注釋的類型(exon/gene/mRNAd/CDS等)

grep -v '^#' yourannots.gff3 | cut -s -f 3 | sort | uniq

統(tǒng)計(jì)GFF文件中寄症,能注釋到gene的數(shù)目:

grep -c $'\tgene\t' yourannots.gff3

提取GFF文件中的gene ID:

grep $'\tgene\t' yourannots.gff3 | perl -ne '/ID=([^;]+)/ and printf("%s\n", $1)'

計(jì)算gff文件中宙彪,基因的長(zhǎng)度:

grep $'\tgene\t' yourannots.gff3 | cut -s -f 4,5 | perl -ne '@v = split(/\t/); printf("%d\n", $v[1] - $v[0] + 1)'
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市有巧,隨后出現(xiàn)的幾起案子释漆,更是在濱河造成了極大的恐慌,老刑警劉巖篮迎,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件男图,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡甜橱,警方通過查閱死者的電腦和手機(jī)逊笆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來岂傲,“玉大人难裆,你說我怎么就攤上這事∧饕矗” “怎么了乃戈?”我有些...
    開封第一講書人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)堰乔。 經(jīng)常有香客問我偏化,道長(zhǎng),這世上最難降的妖魔是什么镐侯? 我笑而不...
    開封第一講書人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任侦讨,我火速辦了婚禮,結(jié)果婚禮上苟翻,老公的妹妹穿的比我還像新娘韵卤。我一直安慰自己,他們只是感情好崇猫,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開白布沈条。 她就那樣靜靜地躺著,像睡著了一般诅炉。 火紅的嫁衣襯著肌膚如雪蜡歹。 梳的紋絲不亂的頭發(fā)上屋厘,一...
    開封第一講書人閱讀 52,337評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音月而,去河邊找鬼汗洒。 笑死,一個(gè)胖子當(dāng)著我的面吹牛父款,可吹牛的內(nèi)容都是我干的溢谤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼憨攒,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼世杀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起肝集,我...
    開封第一講書人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤瞻坝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后包晰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體湿镀,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年伐憾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了勉痴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡树肃,死狀恐怖蒸矛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情胸嘴,我是刑警寧澤雏掠,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏貌笨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一绑青、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧屋群,春花似錦闸婴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春庇楞,著一層夾襖步出監(jiān)牢的瞬間榜配,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來泰國打工姐刁, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芥牌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓聂使,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親谬俄。 傳聞我的和親對(duì)象是個(gè)殘疾皇子柏靶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 行走快樂,賞花溃论,賞月屎蜓,賞人間萬物風(fēng)情 這是2017年5月,仍舊在生活的忙碌中度過钥勋,穿梭于城市昏黃的燈光下炬转,其實(shí)應(yīng)該...
    圈圈圈圓閱讀 342評(píng)論 1 1
  • 今天樹豐老師大力推薦【自詡的濟(jì)南陳妍希--鄧大林】的結(jié)營作業(yè) [結(jié)營作業(yè)]大琳:晨間思:你比從前更快樂 。寫的非常...
    digman閱讀 226評(píng)論 0 0
  • 已經(jīng)十幾年沒動(dòng)過筆畫畫了算灸,人扼劈,真的是越長(zhǎng)大越無趣嗎?曾經(jīng)為之瘋狂的興趣菲驴,如今居然毫無興致~ 曾經(jīng)荐吵,習(xí)慣在無聊或郁悶...
    奔騰的小豬閱讀 560評(píng)論 0 51
  • 在這個(gè)家庭面前你活出過你自己?jiǎn)幔谌说拿媲霸趯W(xué)校面前赊瞬,在家人面前先煎,只有當(dāng)你拼命的為他們而活的時(shí)候,他們或許才會(huì)覺得...
    杰科閱讀 149評(píng)論 1 0