MLSQL解決了什么問題

先看看做算法有哪些痛點(diǎn)(我們假設(shè)大部分算法的代碼都是基于Python的):

  1. 項(xiàng)目難以重現(xiàn)挽绩,可閱讀性和環(huán)境要求導(dǎo)致能把另外一個同事寫的python項(xiàng)目運(yùn)行起來不得不靠運(yùn)氣
  2. 和大數(shù)據(jù)平臺銜接并不容易,需要讓研發(fā)重新做工程實(shí)現(xiàn)挎塌,導(dǎo)致落地周期變長当辐。
  3. 訓(xùn)練時數(shù)據(jù)預(yù)處理/特征化無法在預(yù)測時復(fù)用
  4. 集成到流式筋讨,批處理和提供API服務(wù)都不是一件容易的事情
  5. 代碼/算法復(fù)用級別有限,依賴于算法自身的經(jīng)驗(yàn)以及自身的工具箱,團(tuán)隊(duì)難以共享魄宏。
  6. 其他團(tuán)隊(duì)很難接入算法的工作

MLSQL如何解決這些問題呢?

統(tǒng)一交互語言

MLSQL提供了一套SQL的超集的DSL語法MLSQL存筏,數(shù)據(jù)處理宠互,模型訓(xùn)練,模型預(yù)測部署等都是以MLSQL語言交互椭坚,該語言簡單易懂予跌,無論算法,分析師善茎,甚至運(yùn)營都能看懂券册,極大的減少了團(tuán)隊(duì)的溝通成本,同時也使得更多的人可以做算法方面的工作。

數(shù)據(jù)預(yù)處理 / 算法模塊化

所有較為復(fù)雜的數(shù)據(jù)預(yù)處理和算法都是模塊化的烁焙,通過函數(shù)以及純SQL來進(jìn)行銜接略吨。比如:

-- load data
load parquet.`${rawDataPath}` as orginal_text_corpus;

-- select only columns we care
select feature,label from orginal_text_corpus as orginal_text_corpus;

-- feature enginere moduel
train zhuml_orginal_text_corpus  as TfIdfInPlace.`${tfidfFeaturePath}` 
where inputCol="content" 
and `dic.paths`="/data/dict_word.txt" 
and stopWordPath="/data/stop_words"
and nGrams="2";

-- load data
load parquet.`${tfidfFeaturePath}/data` as tfidfdata;

--  algorithm module
train zhuml_corpus_featurize_training as PythonAlg.`${modelPath}` 
where pythonScriptPath="${sklearnTrainPath}"
-- kafka params for log
and `kafkaParam.bootstrap.servers`="${kafkaDomain}"
and `kafkaParam.topic`="test"
and `kafkaParam.group_id`="g_test-2"
and `kafkaParam.userName`="pi-algo"
-- distribute data
and  enableDataLocal="true"
and  dataLocalFormat="json"
-- sklearn params
and `fitParam.0.moduleName`="sklearn.svm"
and `fitParam.0.className`="SVC"
and `fitParam.0.featureCol`="features"
and `fitParam.0.labelCol`="label"
and `fitParam.0.class_weight`="balanced"
and `fitParam.0.verbose`="true"

and `fitParam.1.moduleName`="sklearn.naive_bayes"
and `fitParam.1.className`="GaussianNB"
and `fitParam.1.featureCol`="features"
and `fitParam.1.labelCol`="label"
and `fitParam.1.class_weight`="balanced"
and `fitParam.1.labelSize`="2"

-- python env
and `systemParam.pythonPath`="python"
and `systemParam.pythonParam`="-u"
and `systemParam.pythonVer`="2.7";

這段小腳本腳本完成了數(shù)據(jù)加載,特征工程考阱,最后的訓(xùn)練翠忠。所有以train開頭的,都是模塊乞榨,以select 開頭的都是標(biāo)準(zhǔn)sql,
以load開頭的則是各種數(shù)據(jù)源的加載秽之。

在MLSQL中,任何一個模塊都有兩個產(chǎn)出:模型和函數(shù)吃既。訓(xùn)練時該模塊會產(chǎn)生一個對應(yīng)的模型考榨,預(yù)測時該模型會提供一個函數(shù),從而實(shí)現(xiàn)

  • 對訓(xùn)練階段的數(shù)據(jù)處理邏輯鹦倚,在預(yù)測時能進(jìn)行復(fù)用河质。
  • 算法訓(xùn)練的模型可以直接部署成一個預(yù)測函數(shù)。

標(biāo)準(zhǔn)遵循

所有數(shù)據(jù)處理模塊震叙,算法模塊掀鹅,都有標(biāo)準(zhǔn)的暴露參數(shù)的方式,也就是前面例子類似下面的句子:

and `fitParam.0.labelCol`="label"
and `fitParam.0.class_weight`="balanced"
and `fitParam.0.verbose`="true"

比如該算法暴露了class_weight,labelCol,verbose等參數(shù)媒楼。所有人開發(fā)的算法模塊和數(shù)據(jù)處理模塊都可以很好的進(jìn)行復(fù)用乐尊。

分布式和單機(jī)多種部署形態(tài)

MLSQL是基于Spark改造而成,這就直接繼承了Spark的多個優(yōu)點(diǎn):

  • 你可以在MLSQL里獲取基本上大部分存儲的支持划址,比如ES,MySQL,Parquet,ORC,JSON,CSV等等
  • 你可以部署在多種環(huán)境里扔嵌,比如Yarn,Mesos,Local等模式

數(shù)據(jù)處理模塊/算法模型易于部署

同行啟動一個local模式的MLSQL Server,然后注冊我們訓(xùn)練的時候使用到的數(shù)據(jù)處理模塊和算法模塊,每個模塊都會產(chǎn)生一個函數(shù)夺颤,接著就能通過http接口傳遞一個函數(shù)嵌套的方式完成一個pipeline的使用了痢缎。對于函數(shù)我們確保其響應(yīng)速度,一般都是在毫秒級世澜。
注冊就是一個簡單的register語句:

-- transform model into udf
register PythonAlg.`${modelPath}` as topic_spam_predict options 
pythonScriptPath="${sklearnPredictPath}"
;

支持所有提供了Python語言接口的算法框架的集成

只要實(shí)現(xiàn)MLSQL的標(biāo)準(zhǔn)規(guī)范独旷,你就能夠輕而易舉的將各種框架集成到MLSQL中。目前已經(jīng)支持SKlearn,同時有Keras圖片處理等相關(guān)例子宜狐。算法可以專注于算法模塊的研發(fā)势告,研發(fā)可以專注于數(shù)據(jù)處理模塊的開發(fā),所有的人都可以通過MLSQL復(fù)用這些模塊抚恒,完成算法業(yè)務(wù)的開發(fā)咱台。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市俭驮,隨后出現(xiàn)的幾起案子回溺,更是在濱河造成了極大的恐慌春贸,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件遗遵,死亡現(xiàn)場離奇詭異萍恕,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)车要,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門允粤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人翼岁,你說我怎么就攤上這事类垫。” “怎么了琅坡?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵悉患,是天一觀的道長。 經(jīng)常有香客問我榆俺,道長售躁,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任茴晋,我火速辦了婚禮陪捷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘晃跺。我一直安慰自己揩局,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布掀虎。 她就那樣靜靜地躺著,像睡著了一般付枫。 火紅的嫁衣襯著肌膚如雪烹玉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天阐滩,我揣著相機(jī)與錄音二打,去河邊找鬼。 笑死掂榔,一個胖子當(dāng)著我的面吹牛继效,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播装获,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼瑞信,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了穴豫?” 一聲冷哼從身側(cè)響起凡简,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤逼友,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后秤涩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體帜乞,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年筐眷,在試婚紗的時候發(fā)現(xiàn)自己被綠了黎烈。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡匀谣,死狀恐怖怨喘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情振定,我是刑警寧澤必怜,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站后频,受9級特大地震影響梳庆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卑惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一膏执、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧露久,春花似錦更米、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至消请,卻和暖如春栏笆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背臊泰。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工蛉加, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人缸逃。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓针饥,卻偏偏與公主長得像,于是被迫代替她去往敵國和親需频。 傳聞我的和親對象是個殘疾皇子丁眼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 1.ios高性能編程 (1).內(nèi)層 最小的內(nèi)層平均值和峰值(2).耗電量 高效的算法和數(shù)據(jù)結(jié)構(gòu)(3).初始化時...
    歐辰_OSR閱讀 29,336評論 8 265
  • 嗨咯,首先復(fù)述一下我這個專題計劃莽鸭。閱讀是個人知識庫輸入的重要來源吗伤,然而,你真的懂閱讀嗎硫眨?你是否也停留在“讀不完足淆、沒...
    Excel自習(xí)室閱讀 2,149評論 5 23
  • 書卷適宜歸隱淪, 安然竹下絕風(fēng)塵礁阁。 門前桂影迎賓客巧号, 窗口幽蘭笑主人。 東壁園邊看玉樹姥闭, 西鄰溪畔醉新春丹鸿。 掩扉閑...
    湖畔漁夫閱讀 381評論 2 2
  • 我愛這片田野 愛這生命開始的地方 愛它無窮無盡的希望 愛它無邊無涯的遠(yuǎn)方 愛它裸露的胸膛 任風(fēng)雨白般蹂躪 依然把萬...
    燕子_5c93閱讀 257評論 0 1
  • 山大溝深花艷, 坡陡彎急車慢棚品。 天高云淡心懸靠欢, 左顧右盼腰酸。 遠(yuǎn)走他鄉(xiāng)游玩铜跑, 起早貪黑無怨门怪。 排除萬難艱險, 只...
    宗林的李閱讀 167評論 1 3