項目需求:
結構化的目的:由于文檔、query中的信息都是參數(shù)化是人可讀挣菲,但機器不方便機器自動化處理富稻,所以需要結構化“渍停——結構化椭赋,為特征工程提供輸入。經(jīng)過特工程或杠,就可以喂給模型進行訓練了哪怔。
所謂結構化,是將原本不規(guī)整的數(shù)據(jù)向抢,轉換成規(guī)整的數(shù)據(jù)认境。例如:10萬公里->10;1_2->102;parameter110:13->13;
需求分析:
1. 結構化的數(shù)據(jù)源挟鸠,有HBASE ;OlineDB 叉信。——數(shù)據(jù)內(nèi)容分:doc數(shù)據(jù)艘希;類目表硼身、地域表等數(shù)據(jù)硅急。
2.滿足分布式;與多線程 兩種場景
3.多個類目佳遂,三端app pc m?
4. 復用营袜;解耦;方便測試——分布式場景丑罪,一般不方便測試
5.類似業(yè)務荚板,架構統(tǒng)一,方便維護
6.配置簡單
方案設計:
目錄結構設計:
架構圖:
類圖:
時序圖: