轉(zhuǎn):不排序去除文件中的重復(fù)行

通常如果我們想獲取一個文件里不重復(fù)的行的時候,我們可以直接通過 sort -u命令缆蝉,先把文件排序,然后去掉連續(xù)的重復(fù)行就行瘦真。
可是刊头,如果我們?nèi)サ糁貜?fù)行之后,還想保留文件原有的順序诸尽,該怎么辦呢原杂?雖然 Linux 下有個看上去似乎很有用的命令叫uniq,但事實上 uniq命令僅僅只對連續(xù)的重復(fù)行有效您机。譬如我們有這樣一個文件:

$ cat file
AAAA
FFFF
BBBB
BBBB
CCCC
AAAA
FFFF
DDDD

如果不排序穿肄,直接使用 uniq 命令是沒有用的:

$ uniq file
AAAA
FFFF
BBBB
CCCC
AAAA
FFFF
DDDD

sort和 uniq一起用,和 sort -u 效果是一樣的

$ sort -u file
AAAA
BBBB
CCCC
DDDD
FFFF

一個終極的解決方案是使用 awk:

$ awk ' !x[$0]++' file
AAAA
FFFF
BBBB
CCCC
DDDD

簡要解釋一下际看,awk 的基本執(zhí)行流程是咸产,對文件的每一行,做一個指定的邏輯判斷仲闽,如果邏輯判斷成立脑溢,則執(zhí)行指定的命令;如果邏輯判斷不成立赖欣,則直接跳過這一行屑彻。
我們這里寫的 awk 命令是 !x[$0]++,意思是畏鼓,首先創(chuàng)建一個 map 叫 x酱酬,然后用當(dāng)前行的全文 $0
作為 map 的 key,到 map 中查找相應(yīng)的 value云矫,如果沒找到膳沽,則整個表達(dá)式的值為真,可以執(zhí)行之后的語句;如果找到了挑社,則表達(dá)式的值為假陨界,跳過這一行。由于表達(dá)式之后有 ++痛阻,因此如果某個 key 找不到對應(yīng)的 value菌瘪,該 ++操作會先把對應(yīng)的 value 設(shè)成 0,然后再自增成 1阱当,這樣下次再遇到重復(fù)的行的時候俏扩,對應(yīng)的 key 就能找到一個非 0 的 value 了。
我們前面說過弊添,awk 的流程是先判斷表達(dá)式录淡,表達(dá)式為真的時候就執(zhí)行語句,可是我們前面寫的這個 awk 命令里只有表達(dá)式油坝,沒有語句嫉戚,那我們執(zhí)行什么呢?原來澈圈,當(dāng)語句被省略的時候彬檀,awk 就執(zhí)行默認(rèn)的句,即打印整個完整的當(dāng)前行瞬女。就這樣窍帝,我們通過這個非常簡短的 awk 命令實現(xiàn)了去除重復(fù)行并保留原有文件順序的功能。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末诽偷,一起剝皮案震驚了整個濱河市盯桦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌渤刃,老刑警劉巖拥峦,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異卖子,居然都是意外死亡略号,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門洋闽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來玄柠,“玉大人,你說我怎么就攤上這事诫舅∮鹄” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵刊懈,是天一觀的道長这弧。 經(jīng)常有香客問我娃闲,道長,這世上最難降的妖魔是什么匾浪? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任皇帮,我火速辦了婚禮,結(jié)果婚禮上蛋辈,老公的妹妹穿的比我還像新娘属拾。我一直安慰自己,他們只是感情好冷溶,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布渐白。 她就那樣靜靜地躺著,像睡著了一般逞频。 火紅的嫁衣襯著肌膚如雪礼预。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天虏劲,我揣著相機與錄音,去河邊找鬼褒颈。 笑死柒巫,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的谷丸。 我是一名探鬼主播堡掏,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼刨疼!你這毒婦竟也來了泉唁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤揩慕,失蹤者是張志新(化名)和其女友劉穎亭畜,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迎卤,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡拴鸵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蜗搔。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片劲藐。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖樟凄,靈堂內(nèi)的尸體忽然破棺而出聘芜,到底是詐尸還是另有隱情,我是刑警寧澤缝龄,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布汰现,位于F島的核電站挂谍,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏服鹅。R本人自食惡果不足惜凳兵,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望企软。 院中可真熱鬧庐扫,春花似錦、人聲如沸仗哨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厌漂。三九已至萨醒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間苇倡,已是汗流浹背富纸。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留旨椒,地道東北人晓褪。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像综慎,于是被迫代替她去往敵國和親涣仿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容