通常如果我們想獲取一個文件里不重復(fù)的行的時候,我們可以直接通過 sort -u命令缆蝉,先把文件排序,然后去掉連續(xù)的重復(fù)行就行瘦真。
可是刊头,如果我們?nèi)サ糁貜?fù)行之后,還想保留文件原有的順序诸尽,該怎么辦呢原杂?雖然 Linux 下有個看上去似乎很有用的命令叫uniq,但事實上 uniq命令僅僅只對連續(xù)的重復(fù)行有效您机。譬如我們有這樣一個文件:
$ cat file
AAAA
FFFF
BBBB
BBBB
CCCC
AAAA
FFFF
DDDD
如果不排序穿肄,直接使用 uniq 命令是沒有用的:
$ uniq file
AAAA
FFFF
BBBB
CCCC
AAAA
FFFF
DDDD
sort和 uniq一起用,和 sort -u 效果是一樣的
$ sort -u file
AAAA
BBBB
CCCC
DDDD
FFFF
一個終極的解決方案是使用 awk:
$ awk ' !x[$0]++' file
AAAA
FFFF
BBBB
CCCC
DDDD
簡要解釋一下际看,awk 的基本執(zhí)行流程是咸产,對文件的每一行,做一個指定的邏輯判斷仲闽,如果邏輯判斷成立脑溢,則執(zhí)行指定的命令;如果邏輯判斷不成立赖欣,則直接跳過這一行屑彻。
我們這里寫的 awk 命令是 !x[$0]++,意思是畏鼓,首先創(chuàng)建一個 map 叫 x酱酬,然后用當(dāng)前行的全文 $0
作為 map 的 key,到 map 中查找相應(yīng)的 value云矫,如果沒找到膳沽,則整個表達(dá)式的值為真,可以執(zhí)行之后的語句;如果找到了挑社,則表達(dá)式的值為假陨界,跳過這一行。由于表達(dá)式之后有 ++痛阻,因此如果某個 key 找不到對應(yīng)的 value菌瘪,該 ++操作會先把對應(yīng)的 value 設(shè)成 0,然后再自增成 1阱当,這樣下次再遇到重復(fù)的行的時候俏扩,對應(yīng)的 key 就能找到一個非 0 的 value 了。
我們前面說過弊添,awk 的流程是先判斷表達(dá)式录淡,表達(dá)式為真的時候就執(zhí)行語句,可是我們前面寫的這個 awk 命令里只有表達(dá)式油坝,沒有語句嫉戚,那我們執(zhí)行什么呢?原來澈圈,當(dāng)語句被省略的時候彬檀,awk 就執(zhí)行默認(rèn)的句,即打印整個完整的當(dāng)前行瞬女。就這樣窍帝,我們通過這個非常簡短的 awk 命令實現(xiàn)了去除重復(fù)行并保留原有文件順序的功能。