如果項目的功能模塊中用到對時間特性比較敏感的數(shù)據(jù)叽粹,例如性能監(jiān)控炭菌,趨勢走向等需求時罪佳,InfluxDB將會是一個不錯的選擇,雖然其很強很彪悍黑低,但只有在使用的過程中遵循一定規(guī)范與原則赘艳,才能發(fā)揮其良好的特性。
本文會先介紹一些InfluxDB的基本概念克握,然后列出一些在設(shè)計Schema時應(yīng)該注意的問題蕾管,最后列出一些常見的優(yōu)化方式。
基本介紹
概念
Database: 數(shù)據(jù)庫名菩暗,在 InfluxDB 中可以創(chuàng)建多個數(shù)據(jù)庫掰曾,不同數(shù)據(jù)庫中的數(shù)據(jù)文件是隔離存放的,存放在磁盤上的不同目錄停团。
Retention Policy: 存儲策略旷坦,用于設(shè)置數(shù)據(jù)保留的時間,每個數(shù)據(jù)庫剛開始會自動創(chuàng)建一個默認(rèn)的存儲策略 autogen佑稠,數(shù)據(jù)保留時間為永久秒梅,之后用戶可以自己設(shè)置,例如保留最近2小時的數(shù)據(jù)舌胶。插入和查詢數(shù)據(jù)時如果不指定存儲策略捆蜀,則使用默認(rèn)存儲策略,且默認(rèn)存儲策略可以修改幔嫂。InfluxDB 會定期清除過期的數(shù)據(jù)辆它。
Measurement: 對于傳統(tǒng)數(shù)據(jù)庫的表,例如 cpu_usage 表示 cpu 的使用率履恩。
Tag sets: tags 在 InfluxDB 中會被建立索引锰茉,且放在內(nèi)存中。如果某種數(shù)據(jù)經(jīng)常用來被作為查詢條件似袁,可以考慮設(shè)為Tag
Field: 記錄值洞辣,是查詢的主要對象咐刨,例如value值等
Point:代表一條記錄
Series:tag key 與tag value的唯一組合
Timestamp: 每一條數(shù)據(jù)都需要指定一個時間戳昙衅,在 TSM 存儲引擎中會特殊對待,以為了優(yōu)化后續(xù)的查詢操作定鸟。
操作
由于Tag與Field的不同特性而涉,在編寫SQL進行查詢時,Tag與Field支持不同的操作联予,總結(jié)如下:
Tag
只能使用Tag進行Group
只能使用Tag進行正則表達式操作
SHOW TAG VALUES WITH KEY = qual_data; #qual_data只能是tag,填寫field無輸出
Field
只能使用Field進行函數(shù)操作啼县,例如sum()
只能使用Field進行比較操作
如果需要使用int,float,boolean類型進行存儲,只能使用Field
select qual_data from mangguo_data where domain='value'; #value只能是field,填寫tag無輸出
Schema 設(shè)計總結(jié)
不要把數(shù)據(jù)放到measurement名稱中材原。
例如 不要讓measurement名稱看起來是這樣的:
cpu.server1.us_west
應(yīng)該改成
cpu,host=server1,region=us_west
不要把數(shù)據(jù)放到Tag value中
例如 不要讓measurement名稱看起來是這樣的:
cpu,host=server1.us_west
應(yīng)該改成
cpu,host=server1,region=us_west
- 不要使用取值范圍很廣的數(shù)據(jù)作為tag,例如uuid,hash等等
- 如果實在有這方面的需求,考慮一下幾點建議
- 切成多個shard,并分到多個實例上
- 使用tag 前綴進行區(qū)分
- 使用field
- 使用集群
- Tag Key不要與Field的名稱相同
- Tags的數(shù)量不要太少
- database的數(shù)量不要太多
- 當(dāng)database的數(shù)量達到千萬級別時季眷,會出現(xiàn)打開文件過多余蟹,占用內(nèi)存過多等問題。
優(yōu)化
常見的優(yōu)化方式如下
控制series的數(shù)量
Series會被索引且存在內(nèi)存中子刮,如果量太大會對資源造成過多損耗威酒,且查詢效率也得不到保障。
可以通過以下方式查詢series的數(shù)量:
influx -database 'cloudportal' -execute 'show series' -format 'csv'|wc -l
通過以下方式查詢tag values的數(shù)量:
influx -database 'cloudportal' -execute 'SHOW TAG VALUES FROM six_months.collapsar_flow WITH KEY = dip' -format 'csv'|wc -l
數(shù)量是否合適可以參考以下標(biāo)準(zhǔn):
-
機器配置
機器配置
- 使用批量寫
如果使用HTTP一次寫一條記錄挺峡,或許還沒有太大的負(fù)擔(dān)葵孤,但是如果用HTTPS的進行一條一條的寫,在加密/解密上的資源損耗會非常的大橱赠。如果不能使用HTTP,則推薦使用UDP協(xié)議 - 使用Continuous Queries 進行數(shù)據(jù)匯聚
對于查詢時間范圍較大且數(shù)據(jù)粒度要求不是非常高的數(shù)據(jù)尤仍,可以考慮使用CQ進行數(shù)據(jù)匯總,并對匯總結(jié)果進行查詢 - 使用恰當(dāng)?shù)臅r間粒度
在數(shù)據(jù)存儲的時候默認(rèn)使用納秒狭姨。而對于很多業(yè)務(wù)操作而言宰啦,可能只需要精確到秒級別。這種情況對于存儲資源以及查詢性能都會有一定的影響送挑。想法如果業(yè)務(wù)需要毫秒級別的精確程度绑莺,而存的時候使用了秒級別的數(shù)據(jù),此時查詢又會出現(xiàn)數(shù)據(jù)的丟失 - 存儲的時候盡量對Tag進行排序
- 無關(guān)的數(shù)據(jù)寫不同的database
- 根據(jù)數(shù)據(jù)情況惕耕,調(diào)整shard的duration
默認(rèn)7天創(chuàng)建一個纺裁,如果查詢的時間范圍較大,會打開多個shard文件司澎,對于數(shù)據(jù)量不大欺缘,且查詢范圍可能較大的數(shù)據(jù),可以將shard duration時間設(shè)置的長一點 - 存儲分離
將WAL目錄與data目錄分別映射到不同的磁盤上挤安,以減少讀寫操作的相互影響