文本處理的小訣竅

場景描述

原始文本格式:

pid1 kid1
pid3 kid1
pid1 kid2
pid1 kid3
pid2 kid3
pid2 kid4

需要統(tǒng)計(jì)的結(jié)果:每條pid可以跟哪幾個(gè)kid關(guān)聯(lián),最終結(jié)果格式:

pid1 kid1,kid2,kid3
pid2 kid3,kid4
pid3 kid1

** 原始文本大概有2億多行 **

處理思路

  • 將文本按第一列排序纸俭,排序后效果:
    pid1 kid1
    pid1 kid2
    pid1 kid3
    pid2 kid3
    pid2 kid4
    pid3 kid3
  • 將第一列相同的行合并,效果:
    pid1 kid1,kid2,kid3
    pid2 kid3,kid4
    pid3 kid1

具體解決代碼

    # sort -k 1 -n src.txt > sort1.txt
    # cat sort1.txt | php -B '
          $pidtmp = 0;
          $kidtmp = array();
      ' -R '
          list($pid, $kid) = explode("\t", $argn);
          if($pid != $pidtmp) {
              echo "\n".$pidtmp."\t".implode(",", array_keys($kidtmp));
              $pidtmp = $pid;
              $kidtmp = array();
          }
          $kidtmp[$kid] = 1;
      '

** 以上兩條命令可實(shí)現(xiàn)需求南窗,共耗時(shí)半個(gè)小時(shí)左右 **

其它說明

本需求中存在一個(gè)原始文檔揍很,這個(gè)文檔是通過其它程序生成的。那么存在一個(gè)疑問万伤,為什么其它程序生成文檔時(shí)窒悔,不直接生成所需要的格式(即以上示例的最終格式),而是生成一個(gè)中間格式的文檔壕翩。

其實(shí)在設(shè)計(jì)之前的程序時(shí)蛉迹,確實(shí)就是期望直接輸出以上的最終文檔傅寡,但出現(xiàn)一個(gè)問題就是這個(gè)最終文檔要怎么存儲(chǔ)放妈,存mysql還是nosql北救。嘗試過mysql,一共有2億行結(jié)果芜抒,每一行就需要讀珍策、寫一次mysql,時(shí)間成本太高宅倒。然后也嘗試了redis攘宙,使用列表存儲(chǔ),每一行原數(shù)據(jù)拐迁,只需要寫一次redis的列表蹭劈,可以減少一次讀,然而時(shí)間還是太長线召,所以才將中間結(jié)果輸入到文本铺韧。再使用以上提到的2條命令將結(jié)果轉(zhuǎn)換為最終格式,時(shí)間成本大降低缓淹。

如果有另外一個(gè)程序需要根據(jù)pid來搜索以上生成的最終文檔哈打,可以借鑒另一篇文章 ,入口

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末讯壶,一起剝皮案震驚了整個(gè)濱河市料仗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伏蚊,老刑警劉巖立轧,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異丙挽,居然都是意外死亡肺孵,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進(jìn)店門颜阐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來平窘,“玉大人,你說我怎么就攤上這事凳怨」逅遥” “怎么了?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵肤舞,是天一觀的道長紫新。 經(jīng)常有香客問我,道長李剖,這世上最難降的妖魔是什么芒率? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮篙顺,結(jié)果婚禮上偶芍,老公的妹妹穿的比我還像新娘充择。我一直安慰自己,他們只是感情好匪蟀,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布椎麦。 她就那樣靜靜地躺著,像睡著了一般材彪。 火紅的嫁衣襯著肌膚如雪观挎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天段化,我揣著相機(jī)與錄音嘁捷,去河邊找鬼。 笑死显熏,一個(gè)胖子當(dāng)著我的面吹牛普气,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播佃延,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼现诀,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了履肃?” 一聲冷哼從身側(cè)響起仔沿,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎尺棋,沒想到半個(gè)月后封锉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡膘螟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年成福,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荆残。...
    茶點(diǎn)故事閱讀 38,617評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奴艾,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出内斯,到底是詐尸還是另有隱情蕴潦,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布俘闯,位于F島的核電站潭苞,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏真朗。R本人自食惡果不足惜此疹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蝗碎,春花似錦振诬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽肩豁。三九已至脊串,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間清钥,已是汗流浹背琼锋。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祟昭,地道東北人缕坎。 一個(gè)月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像篡悟,于是被迫代替她去往敵國和親谜叹。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理搬葬,服務(wù)發(fā)現(xiàn)荷腊,斷路器,智...
    卡卡羅2017閱讀 134,629評論 18 139
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法急凰,類相關(guān)的語法女仰,內(nèi)部類的語法,繼承相關(guān)的語法抡锈,異常的語法疾忍,線程的語...
    子非魚_t_閱讀 31,598評論 18 399
  • 【MySQL】Linux下MySQL 5.5撇簿、5.6和5.7的RPM擒抛、二進(jìn)制和源碼安裝 1.1BLOG文檔結(jié)構(gòu)圖 ...
    小麥苗DB寶閱讀 10,519評論 0 31
  • 一. Java基礎(chǔ)部分.................................................
    wy_sure閱讀 3,805評論 0 11
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 46,773評論 6 342