【linux編程】Linux文本處理三劍客——grep

grep為匹配“關(guān)鍵字”的行

下載練習(xí)數(shù)據(jù)

擬南芥注釋文件

ftp://ftp.arabidopsis.org/home/tair/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff

# 為方便練習(xí)哄芜，重命名文件
cp TAIR10_GFF3_genes.gff gene.gff

查看內(nèi)容

less -SN gene.gff
   1 Chr1    TAIR10  chromosome      1       30427671        .       .       .       ID=Chr1;N
      2 Chr1    TAIR10  gene    3631    5899    .       +       .       ID=AT1G01010;Note=protein
      3 Chr1    TAIR10  mRNA    3631    5899    .       +       .       ID=AT1G01010.1;Parent=AT1
      4 Chr1    TAIR10  protein 3760    5630    .       +       .       ID=AT1G01010.1-Protein;Na

統(tǒng)計染色體數(shù)量

leadingsci@DELL5577:~/Test$ cut -f 1 gene.gff |sort -u
Chr1
Chr2
Chr3
Chr4
Chr5
ChrC
ChrM

查看各基因的染色體數(shù)量

“^” 匹配該字符開頭的行
grep -c 統(tǒng)計含有“gene”的行數(shù)

$i 依次代表 Chr1戳表、Chr2著隆、Chr3凿歼、Chr4、Chr5拦键、ChrC 和 ChrM谣光。

leadingsci@DELL5577:~/Test$ grep "^ChrM" gene.gff |grep -c "gene"
146

# 或者使用循環(huán)

leadingsci@DELL5577:~/Test$ for i in Chr1 Chr2 Chr3 Chr4 Chr5 ChrC ChrM; do grep "^$i" gene.gff |
grep -c "gene"; done
9117
6343
7610
5851
8313
133
146

打印含有“關(guān)鍵字” 的文件名

參數(shù) -l 的作用是：如果文件中含有以 Chr1 開頭的行（至少一行），則將文件名打印出來

leadingsci@DELL5577:~/Test$ grep -l "^Chr1" gene.gff
gene.gff

當(dāng)前目錄下含有“關(guān)鍵字”的文件名

leadingsci@DELL5577:~/Test$ for i in $(ls);do grep -l "Chr1" $i;done
gene.gff
TAIR10_GFF3_genes.gff

參數(shù) -i 來忽略大小寫：

leadingsci@DELL5577:~/Test$ for i in $(ls);do grep -l -i "^Chr1" $i;done
gene.gff
TAIR10_GFF3_genes.gff

去除空白行

^$ 表示空白行芬为，-v 則表示反向匹配萄金，即將非空白行取出來蟀悦。

^$ 為什么表示空白行，則可以理解：^ 表示匹配行首氧敢，$ 則表示匹配行尾日戈，它們這樣組合則表示行首和行尾之間什么都沒有，那就是空白行了孙乖。

leadingsci@DELL5577:~/Test$ grep -v "^$" gene.gff |head -n 4
Chr1    TAIR10  chromosome      1       30427671        .       .       .       ID=Chr1;Name=Chr1
Chr1    TAIR10  gene    3631    5899    .       +       .       ID=AT1G01010;Note=protein_coding_gene;Name=AT1G01010
Chr1    TAIR10  mRNA    3631    5899    .       +       .       ID=AT1G01010.1;Parent=AT1G01010;Name=AT1G01010.1;Index=1
Chr1    TAIR10  protein 3760    5630    .       +       .       ID=AT1G01010.1-Protein;Name=AT1G01010.1;Derives_from=AT1G01010.1

生成染色體

leadingsci@DELL5577:~/Test$ cut -f 1 gene.gff |sort -u |tee -a chr.txt
Chr1
Chr2
Chr3
Chr4
Chr5
ChrC
ChrM

正則表達式

單匹配

> 表示“詞尾錨定”浙炼，即限定右邊的邊界。

leadingsci@DELL5577:~/Test$ grep "Chr1" chr.txt
Chr1
Chr10

# 如果不想匹配到Chr10

leadingsci@DELL5577:~/Test$ grep "Chr1\>" chr.txt

匹配單字符

選擇其中一個字符進行匹配

leadingsci@DELL5577:~/Test$ grep "Chr[23]" chr.txt
Chr2
Chr3

匹配范圍

leadingsci@DELL5577:~/Test$ grep "Chr[2-4]" chr.txt
Chr2
Chr3
Chr4

則表示把不含有 chr2 到 chr6 關(guān)鍵字其他行取出來

其中的 ^ 表示非唯袄，而不是表示匹配行首弯屈。


leadingsci@DELL5577:~/Test$ grep "Chr[^2-4]" chr.txt
Chr1
Chr5
ChrC
ChrM

# 或者
leadingsci@DELL5577:~/Test$ grep -v "Chr[2-4]" chr.txt
Chr1
Chr5
ChrC
ChrM

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市恋拷，隨后出現(xiàn)的幾起案子资厉，更是在濱河造成了極大的恐慌，老刑警劉巖蔬顾，帶你破解...
沈念sama閱讀 221,576評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件宴偿，死亡現(xiàn)場離奇詭異，居然都是意外死亡诀豁，警方通過查閱死者的電腦和手機窄刘，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,515評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來舷胜，“玉大人娩践，你說我怎么就攤上這事∨牍牵” “怎么了欺矫？”我有些...
開封第一講書人閱讀 168,017評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長展氓。經(jīng)常有香客問我，道長脸爱，這世上最難降的妖魔是什么遇汞？我笑而不...
開封第一講書人閱讀 59,626評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮簿废，結(jié)果婚禮上空入，老公的妹妹穿的比我還像新娘。我一直安慰自己族檬，他們只是感情好歪赢，可當(dāng)我...
茶點故事閱讀 68,625評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著单料，像睡著了一般埋凯。火紅的嫁衣襯著肌膚如雪点楼。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,255評論 1贊 308
城市分裂傳說
那天白对，我揣著相機與錄音掠廓，去河邊找鬼。笑死甩恼，一個胖子當(dāng)著我的面吹牛蟀瞧，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播条摸，決...
沈念sama閱讀 40,825評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼悦污，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了钉蒲？” 一聲冷哼從身側(cè)響起切端，我...
開封第一講書人閱讀 39,729評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎子巾，沒想到半個月后帆赢，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,271評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡椰于，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,363評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了瘾婿。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,498評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡偏陪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出煮嫌，到底是詐尸還是另有隱情笛谦，我是刑警寧澤，帶...
沈念sama閱讀 36,183評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布昌阿，位于F島的核電站，受9級特大地震影響懦冰，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜刷钢，卻給世界環(huán)境...
茶點故事閱讀 41,867評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一笋颤、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧内地，春花似錦伴澄、人聲如沸赋除。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,338評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽清焕。三九已至并蝗，卻和暖如春秸妥，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背粥惧。一陣腳步聲響...
開封第一講書人閱讀 33,458評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留突雪，地道東北人起惕。一個月前我還...
沈念sama閱讀 48,906評論 3贊 376
代替公主和親
正文我出身青樓咏删，卻偏偏與公主長得像，于是被迫代替她去往敵國和親督函。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,507評論 2贊 359