優(yōu)劣勢分析
鏈接:http://47.92.89.223:8089/doc.html
使用建模工具API
能夠幫助我們做什么染簇?
優(yōu)勢
- 統(tǒng)一整個數(shù)倉的字段命名
- 沉淀行業(yè)常用字段名稱&標準詞根
- 結合在線mapping文檔快速生成可執(zhí)行的DDL(建表)語句歉糜,幫助我們在創(chuàng)建模型表時提升我們的效率
- 結合在線mapping文檔快速生成可執(zhí)行的DML()語句掘托,幫助我們在使用SQL開發(fā)模型時編碼規(guī)范,同樣能夠幫助我們在日常模型開發(fā)工作中進行效率提升(目前功能還需要完善)
- 結合在線mapping文檔快速生成DQC()可執(zhí)行SQL語句辣辫,幫助我們提效(研發(fā)中)
- 管理日常設計開發(fā)的數(shù)據(jù)模型佑钾,便于后期數(shù)據(jù)治理(研發(fā)中)
劣勢
- 分詞翻譯準確率達不到100%沼本,能夠達到75%左右
- 需要沉淀大量的各行業(yè)標準詞根
- DML自動生成不能覆蓋100%場景的SQL和引擎
標準字段相關接口
標準字段生成
輸入 標準化字段中文注釋桂对,服務端返回標準字段英文字段名稱风题,該接口支持批量生成嘁扼。
接口位置
標準字段相關接口 ----> 標準字段生成
調(diào)用示例
假設你拿到一張表的數(shù)據(jù)字典宙橱,應該先對這張表的字段中文注釋進行標準化以至于翻譯出來的結果更加的準確捻悯,比如,我現(xiàn)在有一張表的數(shù)據(jù)字典鸟赫,如下:
第一步先將源表的字段中文注釋進行標準化蒜胖,如上圖左側
批量復制標準化后的字段中文注釋
-
找到 "標準字段相關接口 ----> 標準字段生成" 接口進行調(diào)試,然后將復制的需要生成的字段中文注釋粘貼到 text 對應的參數(shù)值 input框中惯疙,然后發(fā)送請求到服務端翠勉,稍等片刻等待服務端返回結果
-
將相應內(nèi)容中的數(shù)據(jù)復制到 excel 通過預先寫好的公式進行字符串按照 "|" 切割,取第三列值即可
標準字段生成(包含分詞)
輸入 標準化字段中文注釋霉颠,服務端返回分詞結果以及每個詞根對應的英文名稱&順序拼接后的字段英文名稱对碌,該接口支持批量生成。
接口位置
標準字段相關接口 ----> 標準字段生成(包含分詞)
調(diào)用示例
假設我們現(xiàn)在需要對 "是否評審" 這個字段生成標準的英文名稱蒿偎,那么我們只需要調(diào)用如下接口即可:
如上圖所示朽们,"是否評審" 這個中文注釋被分成了兩個詞怀读,"是否" + "評審" ,這兩個詞我們將它稱為 "標準詞根"骑脱,然后會將這兩個詞根對應的英文名稱進行順序拼接菜枷,如需要查詢標準詞根請使用 標準詞根查詢接口 。
自定義分詞演示
基于上述案例叁丧,如果我們需要自定義分詞方式啤誊,比如:"是否評審" 這個字段默認分成了 "是否" + "評審",現(xiàn)在我們需要自定義讓程序分成一個詞 "是否評審" 的話拥娄,這時候我們需要結合 "自定義數(shù)據(jù)元 ----> 用戶詞典插入" 接口完成蚊锹,具體操作方式如下:
插入成功數(shù)據(jù)元之后,我們再調(diào)用一次 "標準字段生成(包含分詞)" 接口稚瘾,看"是否評審" 這個數(shù)據(jù)元是否生效牡昆,如下圖:
如上圖我們發(fā)現(xiàn)已經(jīng)生效了,這時候分成了一個詞摊欠,但是英文字段名稱不一致丢烘,之前兩個詞時結果是 "is_review",而分成一個詞時結果是 "whthr_rvw" 是因為 "是否評審" 這個詞根的英文名稱是按照程序默認規(guī)則生成的些椒,不是那么的準確播瞳,所以我們需要對這個詞根進行評審,評審過后對該詞根進行修改摊沉,這時候需要調(diào)用 "標準詞根相關接口 ----> 修改詞根" 接口對 "是否評審" 詞根進行修改狐史,修改步驟如下:
修改完成之后痒给,我們再調(diào)用一次 "標準字段生成(包含分詞)" 接口说墨,結果如下:
如上圖所示就成功了,這樣我們就完成了一次 自定義分詞以及 詞根評審 流程苍柏。
修改標準字段
接口位置
標準字段相關接口 ----> 修改標準字段
調(diào)用示例
- 按照要求填寫接口入?yún)?/li>
- chnsName:標準字段中文注釋
- engName:標準字段英文名稱(評審過后)
- 發(fā)送請求至服務端
- 等待服務端返回結果尼斧,200代表更新成功,再次調(diào)用 "標準字段生成" 接口就是更新過后的英文名稱了试吁。
標準字段批量生成(偶爾使用)
TODO
表名&數(shù)據(jù)元&詞根&翻譯生成接口(廢棄)
TODO
模型表相關接口
模型DDL
該接口需要結合飛書在線文檔棺棵,輸入文檔URL鏈接和文檔sheet頁名稱,指定表引擎(目前支持gp熄捍、pg烛恤、hive引擎)
接口位置
模型表相關接口 ----> 模型DDL
調(diào)用示例
- 填寫飛書在線excel文檔的URL鏈接,以及模型表對應的sheet頁名稱余耽,并且指定表引擎
- 發(fā)送請求到服務端缚柏,這里注意有時候會因為飛書接口導致超時的錯誤,重新發(fā)送請求即可
- 等待片刻即可返回DDL語句
注意: 這里的飛書excel都是標準化過的碟贾,必須按照模版格式才能正確生成DDL
模型DML(僅支持Hive引擎)
接口位置
模型表相關接口 ----> 模型DML
調(diào)用示例
- 填寫飛書在線excel文檔的URL鏈接币喧,以及模型表對應的sheet頁名稱轨域,并且指定表引擎
- 發(fā)送請求到服務端,這里注意有時候會因為飛書接口導致超時的錯誤杀餐,重新發(fā)送請求即可
- 等待片刻即可返回DML語句干发,全選復制至數(shù)開平臺執(zhí)行即可
標準詞根相關接口
標準詞根查詢(經(jīng)常使用)
支持批量查詢,多個詞根之間使用 "空格符號" 進行分割史翘。
接口位置
標準詞根相關接口 ----> 查詢詞根
調(diào)用示例
- 在調(diào)式參數(shù)rootName對應的參數(shù)值輸入框輸入你想要生成的標準字段中文注釋枉长,如果需要生成多個標準字段可以使用空格符進行隔開即可,舉例:"是否 評審"
- 點擊發(fā)送請求按鈕
- 等待服務端返回結果即可琼讽,如遇到報錯請跟作者進行反饋
如上圖所示搀暑,接口返回結果的格式是 詞根中文名稱,詞根翻譯參考(多個參考|分隔),詞頻,詞根英文名稱
標準詞根更新(偶爾使用)
接口位置
標準詞根相關接口 ----> 修改詞根
調(diào)用示例
- 按照要求填寫接口入?yún)?
- bsinssPlate:詞根所屬業(yè)務板塊
- rootChnsNm:詞根中文名稱
- rootNm:詞根英文名稱
- translt:詞根翻譯參考
- 發(fā)送請求到服務端
- 等待服務端響應,200表示更新成功
詞根分頁查詢(基本不用)
接口位置
標準詞根相關接口 ----> 詞根分頁查詢
調(diào)用示例
- 按照要求填寫接口入?yún)?
- page:第幾頁
- pageSize:每一頁多少條數(shù)據(jù)
- 發(fā)送請求到服務端
- 等待服務端返回結果
詞根批量更新&新增(偶爾使用)
數(shù)據(jù)格式:詞根中文名稱,評審后的詞根英文名稱
數(shù)據(jù)文件格式:CSV
接口位置
標準詞根相關接口 ----> 詞根批量更新&新增
調(diào)用示例
需要使用PostMan或者curl方式調(diào)用
PostMan方式
curl方式
命令如下:
curl --location 'http://47.92.89.223:8089/root/batchUpdate' \
--header 'Cookie: JSESSIONID=808BBE4647F549AD95E7B6870D457760' \
--form 'csvFile=@"/Users/aochong/workHard/建模工具/詞根批量上傳測試.csv"'
自定義數(shù)據(jù)元相關接口
用戶詞典插入(偶爾使用)
接口位置
自定義數(shù)據(jù)元相關接口 ----> 用戶詞典插入
調(diào)用示例
- 按照要求填寫接口入?yún)?/li>
- 發(fā)送請求到服務端
- 等待服務端響應跨琳,msg = "OK" 說明插入成功了
用戶詞典更新(偶爾使用)
接口位置
自定義數(shù)據(jù)元相關接口 ----> 用戶詞典更新
調(diào)用示例
- 按照要求填寫入?yún)?
- cstmDataElmnt:自定義數(shù)據(jù)元
- partOfSpch:詞性
- wordFrqncy:詞頻
- 發(fā)送請求到服務端
- 等待服務端返回結果自点,狀態(tài) 200 說明更新成功了
用戶詞典分頁查詢(基本不使用)
接口位置
自定義數(shù)據(jù)元相關接口 ----> 用戶詞典分頁查詢
調(diào)用示例
- 按照要求填寫接口入?yún)?
- page:第幾頁
- pageSize:每一頁多少條數(shù)據(jù)
- 發(fā)送請求到服務端
- 等待服務端返回結果
單條用戶詞典查詢(偶爾使用)
接口位置
自定義數(shù)據(jù)元相關接口 ----> 單條用戶詞典查詢
調(diào)用示例
- 按照要求填寫接口入?yún)?
- cstmDataElmnt:自定義數(shù)據(jù)元
- 發(fā)送請求到服務端
- 等待服務端返回結果