一、開源情況
datafaker是一個大批量測試數(shù)據(jù)和流測試數(shù)據(jù)生成工具,兼容python2.7和python3.4+贷掖,歡迎下載使用。github地址為:
https://github.com/gangly/datafaker
文檔同步更新在github
二孽糖、工具產(chǎn)生背景
在軟件開發(fā)測試過程枯冈,經(jīng)常需要測試數(shù)據(jù)。這些場景包括:
- 后端開發(fā)
新建表后办悟,需要構(gòu)造數(shù)據(jù)庫測試數(shù)據(jù)尘奏,生成接口數(shù)據(jù)提供給前端使用。 - 數(shù)據(jù)庫性能測試
生成大量測試數(shù)據(jù)病蛉,測試數(shù)據(jù)庫性能 - 流數(shù)據(jù)測試
針對kafka流數(shù)據(jù)炫加,需要不斷定時生成測試數(shù)據(jù)寫入kafka
常用方法是人工手動造幾條數(shù)據(jù)寫入數(shù)據(jù)庫,這種方法帶來的弊端是
- 浪費工時
針對表的不同數(shù)據(jù)類型的字段铺然,需要構(gòu)造不同數(shù)據(jù) - 數(shù)據(jù)量小
如果需要構(gòu)造大量數(shù)據(jù)俗孝,手動造數(shù)據(jù)無能為力 - 不夠準確
比如需要構(gòu)造郵箱(滿足一定格式),電話號碼(確定的數(shù)字位數(shù))魄健,ip地址(固定格式)赋铝,年齡(不能為負數(shù),有大小范圍)等沽瘦。這些測試數(shù)據(jù)有一定的限制或規(guī)律革骨,手工構(gòu)造可能不能滿足數(shù)據(jù)范圍或一些格式要求而導致后端程序報錯 - 多表關(guān)聯(lián)
手動造的數(shù)據(jù)量較小农尖,在多個表中用主鍵不一定能關(guān)聯(lián)上,或者關(guān)聯(lián)出來沒數(shù)據(jù) - 動態(tài)隨機寫入
比如針對流數(shù)據(jù)良哲,需要隨機每隔幾秒鐘寫入kafka盛卡。或者動態(tài)隨機插入mysql筑凫,手工操作相對麻煩滑沧,而且不好統(tǒng)計寫入數(shù)據(jù)條數(shù)
datafaker是一個多數(shù)據(jù)源測試數(shù)據(jù)構(gòu)造工具,可以模擬產(chǎn)生大部分常用數(shù)據(jù)類型漏健,具有以下功能:
- 多種數(shù)據(jù)類型
包括常見數(shù)據(jù)庫字段類型(整型嚎货、浮點型、字符型)蔫浆、自定義類型(IP地址殖属,郵箱,身份證號碼等) - 模擬多表關(guān)聯(lián)數(shù)據(jù)
通過制定某些字段為枚舉類型(從指定的數(shù)據(jù)列表里面隨機選擇)瓦盛,這樣在數(shù)據(jù)量多的情況下能保證多表Join能關(guān)聯(lián)上洗显,查詢到數(shù)據(jù) - 支持批數(shù)據(jù)和流數(shù)據(jù)生成,可指定數(shù)據(jù)產(chǎn)生間隔時間
- 支持多種數(shù)據(jù)輸出方式原环,包括屏幕打印挠唆、文件和遠程數(shù)據(jù)源
- 支持多種數(shù)據(jù)源。目前支持關(guān)系型數(shù)據(jù)庫嘱吗、Hive玄组、Kafka、Hbase谒麦、ES俄讹。后面將擴展到Mongo,Kudu等數(shù)據(jù)源
- 可指定輸出格式绕德,目前支持text患膛,json
三、軟件架構(gòu)
datafaker是用python編寫耻蛇,支持python2.7踪蹬,python3.4+。已經(jīng)發(fā)布在pypi上臣咖,https://pypi.org/search/?q=datafaker跃捣。
架構(gòu)圖完整的畫出了工具的執(zhí)行過程,從圖可知工具經(jīng)歷了5個模塊:
- 參數(shù)解析器亡哄。解析用戶從終端命令行輸入的命令枝缔。
- 元數(shù)據(jù)解析器。用戶可以指定元數(shù)據(jù)來自本地文件或者遠程數(shù)據(jù)庫表。解析器獲取到文件內(nèi)容后按照規(guī)則將文本內(nèi)容解析成表字段元數(shù)據(jù)和數(shù)據(jù)構(gòu)造規(guī)則愿卸。
- 數(shù)據(jù)構(gòu)造引擎灵临。構(gòu)造引擎根據(jù)元數(shù)據(jù)解析器產(chǎn)生的數(shù)據(jù)構(gòu)造規(guī)則,模擬產(chǎn)生不同類型的數(shù)據(jù)趴荸。
- 數(shù)據(jù)路由儒溉。根據(jù)不同的數(shù)據(jù)輸出類型,分成批量數(shù)據(jù)和流數(shù)據(jù)生成发钝。流數(shù)據(jù)可指定產(chǎn)生頻率顿涣。然后將數(shù)據(jù)轉(zhuǎn)換成用戶指定的格式輸出到不同數(shù)據(jù)源中。
- 數(shù)據(jù)源適配器酝豪。適配不同數(shù)據(jù)源涛碑,將數(shù)據(jù)導入到數(shù)據(jù)源中。
四孵淘、安裝流程
首先確保已經(jīng)安裝python和pip
有兩種安裝方法:
方法1.下載安裝
下載源碼壓縮包蒲障,解壓后,到datafaker目錄里面執(zhí)行:
python setup.py install
方法2.直接安裝(此方法使用若有問題瘫证,請用方法1安裝)
pip install datafaker