ClickHouse奇技淫巧系列之SQL查文件

沒(méi)有什么是1個(gè)SQL解決不了的.jpg

今天的主題酸休,不用寫序言骂租,看上圖就懂

如何用SQL的方式操作一個(gè)文件

先舉例

  • 想知道history命令里,敲得最多的是哪個(gè)雨席?
  • 當(dāng)然菩咨,sed,awk完全可以做到陡厘,但是抽米,如果用SQL怎么做?
history | awk '{print $1"\t"$2}' | clickhouse-client \
--query="SELECT shell, count() AS c FROM history \
GROUP BY shell ORDER BY c DESC limit 10 " \
--external --file=- --name=history \
--structure='id UInt16, shell String'  -h  127.0.0.1  
ls      390
cd      243
clickhouse-client       173
du      67
vim     57
htop    42
cat     28
history 27
tailf   25
mysql   24

原理

  • ClickHouse支持把一個(gè)外部文件糙置,加載到內(nèi)部的一個(gè)臨時(shí)表中云茸,對(duì)這個(gè)臨時(shí)表進(jìn)行SQL化操作

格式

--external --file=... [--name=...] [--format=...] [--types=...|--structure=...]
  • --external 表示這個(gè)操作是外部文件的
  • --file=... 指定一個(gè)文件,如果是標(biāo)準(zhǔn)輸入谤饭,則寫-
  • [--name=...] 表名标捺,如果忽略,默認(rèn)給_data
  • [--format=...] 列分隔符揉抵,默認(rèn)是TabSeparated
  • `[--types=...|--structure=...] 這句不解釋了亡容,看上面的例子就好了

再來(lái)一個(gè)測(cè)試

  • 為了模擬一個(gè)有意義的場(chǎng)景,我們選了ClickHouse的system.parts這個(gè)表冤今,里面記錄的是ClickHouse的分區(qū)信息闺兢,表結(jié)構(gòu)如下
partition:                             201709
name:                                  20170903_20170905_2_2963928_22
replicated:                            0
active:                                1
marks:                                 23372
rows:                                  191456971
bytes:                                 93294984484
modification_time:                     2017-09-05 23:37:33
remove_time:                           0000-00-00 00:00:00
refcount:                              2
min_date:                              2017-09-03
max_date:                              2017-09-05
min_block_number:                      2
max_block_number:                      2963928
level:                                 22
primary_key_bytes_in_memory:           93488
primary_key_bytes_in_memory_allocated: 196608
database:                              xx
table:                                 xx
engine:                                MergeTree
  • 我們導(dǎo)出一份數(shù)據(jù),作為測(cè)試文件
  • 默認(rèn)導(dǎo)出的文件是tab分割
clickhouse-client -h  127.0.0.1 -m -d system -q "select * from parts " > test.sql 
  • 目標(biāo)SQL
  • 找某個(gè)表的分區(qū)數(shù)據(jù)戏罢,即有幾個(gè)分區(qū)屋谭,分區(qū)文件多大
SELECT 
    partition, 
    count() AS number_of_parts, 
    formatReadableSize(sum(bytes)) AS sum_size
FROM system.parts 
WHERE active AND (database = 'xxxx') AND (table = 'xxxx_msg')
GROUP BY partition
ORDER BY partition ASC
  • 文件SQL
root@10.xxxx:/root  # wc -l test.sql 
11991 test.sql
root@10.xxxx:/root  # clickhouse-client \
--query="SELECT partition,  count() AS number_of_parts, \
formatReadableSize(sum(bytes)) AS sum_size FROM parts  \
WHERE active AND (database = 'xxxx') AND (table = 'xxxx_msg') \
GROUP BY partition ORDER BY partition ASC ;" \
--external --file=test.sql --name=parts \
--structure='partition UInt16,name String,replicated UInt16,active UInt16,marks UInt16,rows UInt16,bytes UInt16,modification_time String,remove_time String,refcount UInt16,min_date String,max_date String,min_block_number UInt16,max_block_number UInt16,level UInt16,primary_key_bytes_in_memory UInt16,primary_key_bytes_in_memory_allocated UInt16,database String,table String,engine String'  \
-h  127.0.0.1  
201709  36      1.68 TiB
201710  26      1.42 TiB
201711  30      1.42 TiB
201712  31      963.07 GiB

注意事項(xiàng)

  • 文件操作雖然方便,但是官方文檔也提到了龟糕,如果是特別大的文件桐磁,還是不要這么玩了
  • 另外,這個(gè)文件SQL其實(shí)還是要依賴ClickHouse-Server的讲岁,如果你沒(méi)有啟動(dòng)Server我擂,玩不了的哦~
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末衬以,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子扶踊,更是在濱河造成了極大的恐慌泄鹏,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秧耗,死亡現(xiàn)場(chǎng)離奇詭異备籽,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)分井,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門车猬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人尺锚,你說(shuō)我怎么就攤上這事珠闰。” “怎么了瘫辩?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵伏嗜,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我伐厌,道長(zhǎng)承绸,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任挣轨,我火速辦了婚禮军熏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘卷扮。我一直安慰自己荡澎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布晤锹。 她就那樣靜靜地躺著摩幔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鞭铆。 梳的紋絲不亂的頭發(fā)上热鞍,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音衔彻,去河邊找鬼。 笑死偷办,一個(gè)胖子當(dāng)著我的面吹牛艰额,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播椒涯,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼柄沮,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起祖搓,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤狱意,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后拯欧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體详囤,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年镐作,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了藏姐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡该贾,死狀恐怖羔杨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情杨蛋,我是刑警寧澤兜材,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站逞力,受9級(jí)特大地震影響曙寡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜掏击,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一卵皂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧砚亭,春花似錦灯变、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至寻仗,卻和暖如春刃泌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背署尤。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工耙替, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人曹体。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓俗扇,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親箕别。 傳聞我的和親對(duì)象是個(gè)殘疾皇子铜幽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容