內(nèi)容來源:2017年11月4日,Pivotal Greenplum Madlib研發(fā)工程師梅靖怡在“Greenplum和機(jī)器 學(xué)習(xí)客戶研討會(huì)”進(jìn)行《Machine Learning on Greenplum—MADlib簡介與應(yīng)用實(shí)例》演講分享。IT 大咖說(ID:itdakashuo)作為獨(dú)家視頻合作方顺呕,經(jīng)主辦方和講者審閱授權(quán)發(fā)布括饶。
閱讀字?jǐn)?shù):4809?|6分鐘閱讀
獲取嘉賓完整演講視頻及PPT,請(qǐng)點(diǎn)擊:http://t.cn/Ewvhaca
摘要
Apache MADlib是Pivotal與UCBerkeley合作的一個(gè)開源機(jī)器學(xué)習(xí)庫巷帝,提供了精確的數(shù)據(jù)并行實(shí)現(xiàn)扫夜、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析楞泼。MADlib提供了豐富的分析模型,包括回歸分析笤闯,決策樹颗味,隨機(jī)森林,貝葉斯分類时呀,向量機(jī)晶默,風(fēng)險(xiǎn)模型,KMEAN聚集趴梢,文本挖掘坞靶,數(shù)據(jù)校驗(yàn)等蝴悉。MADlib支持Greenplum,PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大擴(kuò)展了數(shù)據(jù)庫的分析功能拍冠,充分利用MPP架構(gòu)使其能夠快速處理海量數(shù)據(jù)集。本主題將為大家介紹MADlib的基本架構(gòu)妻味,工作原理及特性欣福,分享MADlib在互聯(lián)網(wǎng)责球,金融雏逾,零售等行業(yè)的用戶案例,展望In-Database Machine Learning的廣闊前景屑宠。
MADlib簡介
MADlib是一個(gè)基于SQL的數(shù)據(jù)庫內(nèi)置的可擴(kuò)展機(jī)的器學(xué)習(xí)庫典奉。讓我們來逐一解釋這個(gè)定義丧叽。說起機(jī)器學(xué)習(xí)庫踊淳,同行的朋友應(yīng)該比較熟悉python上的scikit-learn。我們的庫實(shí)現(xiàn)了類似的功能脱茉,但是我們的語法是基于SQL的琴许,也就是說说榆,你可以用select + function name的方式來調(diào)用這個(gè)庫签财。這就意味著偏塞,所有的數(shù)據(jù)調(diào)用和計(jì)算都在Database內(nèi)完成而不需要數(shù)據(jù)的導(dǎo)入導(dǎo)出灸叼。由于應(yīng)用在大規(guī)模并行處理的數(shù)據(jù)庫內(nèi),它的可擴(kuò)展性也非常好屁魏,能夠處理較大量級(jí)的數(shù)據(jù)氓拼。
我們的整個(gè)項(xiàng)目和代碼是在Apache上開源的,到目前為止坏匪,我們已經(jīng)有6個(gè)release, 并且于今年從阿帕奇孵化器畢業(yè)适滓,成為apache的頂級(jí)項(xiàng)目恋追。
我們是一個(gè)在大規(guī)模并行處理系統(tǒng)上的可擴(kuò)展應(yīng)用几于,目前支持PostgreSQL和Pivotal Greenplum沿彭。
MADlib具有強(qiáng)大的數(shù)據(jù)分析能力。我們支持大量的機(jī)器學(xué)習(xí)瞧柔,圖形分析和統(tǒng)計(jì)分析算法造锅。
歷史回顧
MADlib創(chuàng)始于2011年廉邑,當(dāng)時(shí)屬于EMC/Greenplum蛛蒙,后來Greenplum變成了pivotal的Greenplum牵祟。主要由UC Berkeley的一位學(xué)者,Joe Hellerstein發(fā)起咕晋,Stanford, University of Wisconsin-MADISON和University of Florida也有參與收奔。
MAD這個(gè)名字來源于三個(gè)詞坪哄。
M代表Magnetic,有吸引力的殊霞,意味著這個(gè)系統(tǒng)能夠吸引很多的用戶和數(shù)據(jù)汰蓉。傳統(tǒng)的數(shù)據(jù)倉庫對(duì)新數(shù)據(jù)不夠友好顾孽,導(dǎo)入的數(shù)據(jù)往往需要非常干凈和完整。然而MADlib可以做到即使在數(shù)據(jù)不夠整齊的情況下拦英,也能幫助數(shù)據(jù)科學(xué)家進(jìn)行一些有意義的計(jì)算和推斷疤估。
A代表Agile铃拇,敏捷沈撞,意味著這個(gè)系統(tǒng)能夠幫助數(shù)據(jù)科學(xué)家快速有效地處理數(shù)據(jù)缠俺。這有賴于在MADlib在數(shù)據(jù)庫內(nèi)的集成。
D代表Deep磷雇,深入倦春。在大規(guī)模并行集成系統(tǒng)上的應(yīng)用使得數(shù)據(jù)科學(xué)家能夠使用完整的大數(shù)據(jù),而不是在單核的內(nèi)存內(nèi)對(duì)數(shù)據(jù)集的子集進(jìn)行分析忠怖,從而提高了分析的精準(zhǔn)性抄瑟。
三個(gè)字母連在一起,mad這個(gè)詞在英語中除了我們所熟知的瘋狂這個(gè)意思骂维,還有一個(gè)意思是“極好的”贺纲。我們希望MADlib能給數(shù)據(jù)科學(xué)家們提供一個(gè)極好的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析平臺(tái)猴誊。
MADlib用戶
MADlib有非常廣泛的用戶群體懈叹。
目前,我們的用戶涉及金融胧洒,保險(xiǎn)略荡,互聯(lián)網(wǎng)歉胶,醫(yī)療通今,媒體辫塌,娛樂,汽車掺喻,制造等等行業(yè)感耙〖磁穑可以說我們提供的機(jī)器學(xué)習(xí)方法能夠覆蓋大部分行業(yè)的需求屡拨。
MADlib功能
如上圖所示,這個(gè)列表是目前MADlib所支持的算法损离。
監(jiān)督學(xué)習(xí)草冈,我們支持Neural Network, SVM, regression, decision tree怎棱;非監(jiān)督學(xué)習(xí)绷跑,我們支持clustering,topic modeling等砸捏;圖形處理垦藏,我們支持apsp, bfs等等。
另外還有時(shí)間序列處理轰驳,模型選擇级解,基本統(tǒng)計(jì)和數(shù)據(jù)類型轉(zhuǎn)換勤哗。到目前為止我們支持了超過50種算法掩驱,是一個(gè)復(fù)雜而成熟的數(shù)據(jù)科學(xué)學(xué)習(xí)庫欧穴,能夠支持各種復(fù)雜的機(jī)器學(xué)習(xí)場景苔可。
MADlib特性
更好的并行度焚辅。我們?cè)谒惴ㄔO(shè)計(jì)階段就充分考慮了與大規(guī)模并行處理系統(tǒng),基于不同的算法棚点,設(shè)計(jì)不同的分布方式來保證更快的并行處理速度瘫析。
更好的可擴(kuò)展性贬循。隨著數(shù)據(jù)量的增長桃序,我們的擴(kuò)展性非常穩(wěn)定媒熊。
更高的預(yù)測精度芦鳍。處理大數(shù)據(jù)使得更多有效數(shù)據(jù)被利用柠衅,從而實(shí)現(xiàn)更加精確的預(yù)測效果菲宴。
我們是Apache ASF上的頂級(jí)開源項(xiàng)目,我們的開發(fā)是在Pivotal的支持下基于Apache community的付燥,與社區(qū)有非常好的互動(dòng)键科。
MADlib的工作原理
相信很多Greenplum用戶對(duì)這幅圖很熟悉勋颖,這是Greenplum的架構(gòu)饭玲,當(dāng)一個(gè)query進(jìn)來的時(shí)候茄厘,master server會(huì)對(duì)query進(jìn)行處理次哈,按一定規(guī)則把query分配到多個(gè)segment上并行處理,最后的結(jié)果再返回master server窑滞。
MADlib就是構(gòu)建在Greenplum這個(gè)架構(gòu)之上的巨坊。MADlib通過定義postgres上的UDA和UDF建立in-database function此改。當(dāng)我們用sql, r調(diào)用MADlib的時(shí)候带斑,MADlib會(huì)首先進(jìn)行輸入的有效性判斷和數(shù)據(jù)的預(yù)處理勋磕,將處理后的query傳給Greenplum, 之后所有的計(jì)算在Greenplum內(nèi)執(zhí)行挂滓。
執(zhí)行流程
上圖中是整個(gè)過程的執(zhí)行流程赶站。
在客戶端贝椿,我們可以使用jupyter, zeppelin, psql等等工具連接數(shù)據(jù)庫并調(diào)用MADlib function烙博,MADlib處理后根據(jù)算法生成多個(gè)query傳入database, 之后Greenplum執(zhí)行query并返回String, String一般是一個(gè)或多個(gè)存放結(jié)果的表。
MADlib Architecture
這是MADlib的基本架構(gòu),我們的user interface就是sql, 代碼的上層主要是python, 會(huì)做一些input validation和pre-processing. 我們調(diào)用plpy來執(zhí)行查詢位迂。代碼的中間層和底層主要是c++, 我們用c++來調(diào)用eigen libraray. Eigen是C++里處理代數(shù)和幾何的包掂林。C++也調(diào)用了c的API來和DB進(jìn)行交流党饮。
示例– PageRank
下面是一個(gè)MADlib使用示例驳庭,以pagerank這個(gè)算法為例饲常。
PageRank是一種由搜索引擎根據(jù)網(wǎng)頁直接相互的超鏈接來進(jìn)行計(jì)算的技術(shù)贝淤,是網(wǎng)頁排名的一個(gè)重要算法播聪,以google創(chuàng)始人Larry Page的名字來命名离陶。
在MADlib中招刨,計(jì)算一個(gè)圖的pagerank沉眶,需要兩個(gè)表格作為輸入數(shù)據(jù)谎倔,第一個(gè)表格是vertex(節(jié)點(diǎn)),用來保存節(jié)點(diǎn)的信息腻暮,第二個(gè)表是edge(邊)哭靖,用來保存節(jié)點(diǎn)指向節(jié)點(diǎn)的情況试幽。使用MADlib調(diào)用pagerank的步驟如下:select MADlib.pagerank(),這里需要幾個(gè)輸入铺坞。第一個(gè)輸入就是vertex表济榨,第二個(gè)輸入是vertex id這一欄在該表中的名稱擒滑,在示例中的這個(gè)vertex表里,這就是id這一欄藻糖。第三個(gè)輸入是edge table這張表的名稱巨柒,第四個(gè)輸入洋满,指出邊的起點(diǎn)和終點(diǎn)所對(duì)應(yīng)的欄在表里的名稱芦岂,最后一個(gè)輸入是用戶定義的輸出表格禽最,計(jì)算結(jié)果將返回這個(gè)表格川无。
上圖是計(jì)算結(jié)果懦趋,查看pagerank_out這張表格仅叫,可以看到每個(gè)節(jié)點(diǎn)的pagerank分?jǐn)?shù)诫咱。另外洪灯,我們有一個(gè)表格,pagerank_out_summary,存放了收斂迭代的次數(shù)坏快,在這個(gè)例子中莽鸿,計(jì)算迭代了16次之后收斂并返回結(jié)果祥得。
可擴(kuò)展性
MADlib具有良好的可擴(kuò)展性,能夠處理較大量級(jí)的數(shù)據(jù)鸣戴。以pagerank為例啃沪,這張圖顯了隨著邊數(shù)的增加粘拾,完成計(jì)算所需要的時(shí)間窄锅。我們可以看到,1億個(gè)頂點(diǎn)缰雇,從6億條邊到50億條邊入偷,運(yùn)行時(shí)間幾乎保持了線性增長械哟。
這是SVM的Performance
我們可以看到在一億條記錄范圍內(nèi)疏之,運(yùn)行時(shí)間也是接近線性的增長。對(duì)一億條記錄的處理可以在10分鐘內(nèi)完成暇咆。
以上就是對(duì)MADlib的初步介紹锋爪,相信大家已經(jīng)對(duì)MADlib有了一個(gè)初步的了解。接下來是兩個(gè)用戶案例爸业。
用戶案例1 -Greenplum + MADlib助力郵件營銷
首先介紹一個(gè)下案例的背景其骄。我們的客戶是某大型跨國多元化傳媒和娛樂公司,是Greenplum的用戶扯旷。
在這個(gè)案例中拯爽,他們想要提高郵件營銷的精準(zhǔn)度。他們面臨的主要問題有:郵件廣告點(diǎn)擊預(yù)測模型不夠精準(zhǔn)钧忽,需要更好的模型和營銷策略毯炮。其次,他們現(xiàn)有的數(shù)據(jù)分析流程比較繁瑣耸黑,速度較慢并且有很多手工的步驟桃煎,容易出錯(cuò)。在與Pivotal Data Science Team合作之后大刊,我們?yōu)樗麄兲峁┝艘惶捉鉀Q方案备禀。首先,我們充分利用了MADlib的多種功能,簡化了整個(gè)data pipeline曲尸,用MADlib重新建模和預(yù)測赋续,并且實(shí)現(xiàn)了流程的全自動(dòng)化。
這次合作的影響非常顯著另患,首先纽乱,對(duì)于郵件點(diǎn)擊率,我們有了更快昆箕,更高效和更精準(zhǔn)的建模和預(yù)測鸦列,其次,該客戶一直是Greenplum的用戶鹏倘,但對(duì)Greenplum內(nèi)建的各種資源并沒有充分利用薯嗤,這次合作讓他們看到了in-database analytics的高效和快捷,使得他們實(shí)現(xiàn)了in-Greenplum analytics一體化纤泵。
客戶的數(shù)據(jù)源包含了以下信息:user 在mobile 端的購買骆姐,預(yù)訂,注冊(cè)捏题,郵件營銷歷史玻褪,網(wǎng)頁瀏覽歷史,地理信息等等公荧,數(shù)據(jù)量是TB級(jí)別带射,總共的特征超過1000項(xiàng)。整個(gè)過程都在Greenplum這個(gè)平臺(tái)上進(jìn)行循狰。建模工具主要是MADlib,以及一些PL/pgSQL窟社。
以下是該客戶當(dāng)時(shí)的數(shù)據(jù)分析工作流程。原始的數(shù)據(jù)都導(dǎo)入并存在Greenplum中绪钥。之后灿里,數(shù)據(jù)被導(dǎo)入SAS中,進(jìn)行了數(shù)據(jù)清洗和準(zhǔn)備昧识。再之后數(shù)據(jù)又從SAS中導(dǎo)入了EXCEL钠四,在EXCEL中建模計(jì)算Information Value 和Weight of Evidence, 即信息量和證據(jù)權(quán)重。之后跪楞,數(shù)據(jù)被導(dǎo)回SAS缀去,計(jì)算Pairwise Correlation译蒂,一種變量相關(guān)性灿渴。根據(jù)計(jì)算的結(jié)果炮沐,在EXCEL中去除高度相關(guān)的變量崭捍。以上步驟都是為了減少變量的數(shù)量,因?yàn)镾AS上并不能很好地處理超過1000個(gè)的變量黎比。這之后绽昏,數(shù)據(jù)被再次導(dǎo)回SAS,在上面進(jìn)行邏輯回歸悉稠,最后把分析結(jié)果導(dǎo)回Greenplum。由于SAS能夠處理的數(shù)據(jù)量有限赊抖,客戶只能用Sample進(jìn)行建模统倒,所以在最后,數(shù)據(jù)又導(dǎo)回Excel進(jìn)行KS-Score Test, 進(jìn)行Model Validation氛雪。KS-Score Test驗(yàn)證的是樣本分布是否能有效代表總體分布房匆,從而驗(yàn)證模型的有效性。經(jīng)過Validation之后結(jié)果最終被導(dǎo)回Greenplum报亩,手動(dòng)用該模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測浴鸿。
從這個(gè)流程中我們能看到一些問題:
首先,很明顯的弦追,數(shù)據(jù)在Greenplum, SAS和Excel之間多次導(dǎo)入導(dǎo)出岳链,比較繁瑣,這期間也會(huì)存在數(shù)據(jù)格式轉(zhuǎn)換劲件,數(shù)據(jù)丟失等等問題掸哑。
其次,我們可以看到寇仓,在SAS和Excel之間來回的好幾個(gè)步驟其實(shí)都是為了降低維度举户,減少SAS上的變量數(shù)烤宙,由于許多變量沒有得到利用遍烦,這從一定程度上降低了模型預(yù)測的準(zhǔn)確度。
最后躺枕,由于SAS和EXCEL能處理的數(shù)據(jù)有限服猪,客戶只能用樣本數(shù)據(jù)來進(jìn)行建模,沒有充分利用Greenplum里的大數(shù)據(jù)拐云,這也影響了建模的精確度罢猪。
在與Pivotal Data Science合作之后,我們建立了一個(gè)新的工作流程叉瘩。
可以看到膳帕,所有SAS和EXCEL內(nèi)的步驟都被移除了,整個(gè)流程都在Greenplum內(nèi)完成薇缅。在存放好數(shù)據(jù)之后危彩,首先,用MADlib的feature generation來提取特征泳桦,之后運(yùn)調(diào)用不同的MADlib函數(shù)汤徽,計(jì)算Information Value, pairwise correlation,完成特征選擇灸撰。建模階段谒府,直接調(diào)用相關(guān)的邏輯回歸函數(shù)和elastic net拼坎,(用elastic net進(jìn)行變量選擇,然后建立邏輯回歸)完疫。驗(yàn)證階段泰鸡,MADlib提供了很多validation的函數(shù),最后壳鹤,MADlib函數(shù)可以對(duì)新的data進(jìn)行預(yù)測鸟顺。
從數(shù)據(jù)準(zhǔn)備到特征選擇,再到建模器虾,驗(yàn)證和預(yù)測讯嫂,MADlib提供了所有的相關(guān)函數(shù)。對(duì)比之前的步驟數(shù)量兆沙,也從8步變?yōu)榱?步欧芽。另一個(gè)明顯的優(yōu)勢是,這個(gè)模型用到了Greenplum里的所有數(shù)據(jù)葛圃,并且可以使用更多的feature來建模千扔。
此次優(yōu)化使得數(shù)據(jù)分析的整個(gè)環(huán)節(jié)效率都大大提高。在生成數(shù)據(jù)階段库正。原來的時(shí)間是75分鐘曲楚,優(yōu)化后只需要8分鐘,整個(gè)過程速度提高了9倍褥符。Attribute compilation階段龙誊,速度是之前的3倍,并且運(yùn)用了更多的495個(gè)attribute喷楣。在計(jì)算Information Value階段趟大,平均每個(gè)變量的計(jì)算速度是之前的13.7倍。建模階段铣焊,之前一次迭代需要大約30分鐘逊朽,并且只能運(yùn)用小于50個(gè)變量,而在優(yōu)化之后曲伊,平均一次迭代只需要1.86分鐘叽讳,并且可以用376個(gè)變量進(jìn)行回歸分析,平均每次迭代速度是原來的16倍坟募〉涸椋可以看到,整個(gè)數(shù)據(jù)分析流程得到了非常顯著的提速婿屹。
這是建模的結(jié)果灭美。
原始模型的準(zhǔn)確率是99.7%,但是true positive rate是0%昂利。也就是說届腐,原始的模型只能很好地預(yù)測不會(huì)點(diǎn)擊郵件的用戶铁坎,而沒有把握預(yù)測會(huì)點(diǎn)擊郵件的用戶。改良后的模型犁苏,準(zhǔn)確率是62.8%硬萍,看上去好像降低了,但true positive rate是66%围详,這意味著朴乖,該模型有66%的把握預(yù)測出會(huì)點(diǎn)擊郵件的用戶,而這些用戶正是給公司帶來核心價(jià)值的用戶群體助赞。
用戶案例2-基于API日志的金融產(chǎn)品用戶分析
這個(gè)案例的用戶是某大型跨國金融服務(wù)公司买羞。他們的case主要是手機(jī)mobile app API的分析。
他們主要面臨以下問題:1.如何利用API日志更好地理解不同種類的用戶雹食,2.如何更好地理解用戶與APP的交互 3. 如何對(duì)實(shí)時(shí)API請(qǐng)求進(jìn)行分類和安全檢測 3. 現(xiàn)有API日志數(shù)據(jù)量很大畜普,現(xiàn)有數(shù)據(jù)分析團(tuán)隊(duì)缺乏大數(shù)據(jù)分析技能。
在與Pivotal合作后群叶,我們?yōu)樗麄兲峁┝艘韵陆鉀Q方案:使用MADlib進(jìn)行聚類分析吃挑,建立一個(gè)sessionization模型。建立一個(gè)scoring pipeline街立,對(duì)新的訪問進(jìn)行評(píng)估舶衬,使用visualization tool更好地呈現(xiàn)結(jié)果。
這次合作的商業(yè)影響也是非常顯著的赎离。首先逛犹,我們針對(duì)不同的分析師建立了多個(gè)用戶類型分類,能夠及時(shí)把某種特定類型的用戶信息傳到相應(yīng)的分析師手上蟹瘾。其次建立了實(shí)時(shí)訪問安全評(píng)分系統(tǒng)圾浅,對(duì)可疑訪問進(jìn)行及時(shí)處理掠手,最后使用Greenplum + MADlib的形式憾朴,使得大數(shù)據(jù)的得到了更加充分的挖掘。
這個(gè)項(xiàng)目的數(shù)據(jù)源主要包括用戶的api 訪問日志和customer profile喷鸽,涉及45天的訪問情況众雷,50億行數(shù)據(jù),百萬級(jí)別的用戶信息做祝。平臺(tái)依然是Greenplum砾省,建模主要用到了MADlib, PLR, PL/PYTHON和PDLTools。PDLTools是Pivotal data science 的另一套數(shù)據(jù)科學(xué)包混槐”嘈郑可視化主要在Tableau上進(jìn)行。
如圖所示是整個(gè)建模的過程声登。由于篇幅關(guān)系在此不做詳述狠鸳。
案例總結(jié)
首先揣苏,在改良之前,用戶雖然使用了Greenplum件舵,但依然在R上對(duì)data sample進(jìn)行分析卸察,DCA閑置。改良后铅祸,用戶使用Greenplum+MADlib對(duì)大數(shù)據(jù)集進(jìn)行了更充分的分析坑质。
第二,在改良前临梗,用戶沒有建立起良好的用戶分類體系涡扼,合作完成后,他們建立了兩套模型對(duì)典型用戶進(jìn)行聚類分析盟庞,對(duì)用戶群體和用戶習(xí)慣有了更深入的了解壳澳,制定相應(yīng)的營銷策略。
第三茫经,之前的model不能高效檢測可疑的session巷波,改良后,客戶建立起了對(duì)可疑session實(shí)時(shí)評(píng)分體系卸伞。
最后抹镊,在合作之前,客戶在評(píng)估是否轉(zhuǎn)換到Teradata上荤傲,但是改良后垮耳,他們決定放棄Teradata,增加GREENPLUM cluster的數(shù)量遂黍,充分證明了Greenplum在數(shù)據(jù)分析方面的優(yōu)秀表現(xiàn)终佛。
總結(jié)與展望
通過使用MADlib,我們能夠進(jìn)行g(shù)raph, clustering, regression, classification等統(tǒng)計(jì)和機(jī)器學(xué)習(xí)分析雾家,此外铃彰,我們還有GPText進(jìn)行文本分析,Geospatial進(jìn)行地理空間分析芯咧。Greenplum也能很好地支持BI reporting tool牙捉,實(shí)現(xiàn)快速的數(shù)據(jù)可視化。我們的理念就是ALLIN ONE DATABASE敬飒,讓分析變得更便捷和更高效邪铲。
我們很快將要發(fā)布版本1.13,在這個(gè)版本中无拗,將會(huì)加入一些新的圖形方面的算法带到,包括HITS和Graph cut,我們會(huì)支持mini-batching英染,加快計(jì)算的速度揽惹,同時(shí)晌纫,隨著新版postgres 10的發(fā)布,我們也會(huì)加入對(duì)新版本的支持永丝。
下一個(gè)版本發(fā)布是2.0锹漱,我們會(huì)有一些Interface方面的改動(dòng),算法方面慕嚷,在圖形方面會(huì)加入特征向量中心性哥牍,中間中心性等。SVM喝检,我們會(huì)加入Multiclass嗅辣,另外,我們會(huì)加入gradient boosted machines(GBM)做boosting挠说。最后澡谭,我們會(huì)加入更多的utility function來預(yù)處理數(shù)據(jù)。
2018年损俭,我們的開發(fā)重心會(huì)放在deep learning上蛙奖,相信我們能為大家提供更多深度方面的支持。
上圖是MADlib相關(guān)的resource杆兵,我們是全開源的雁仲,歡迎大家瀏覽或者和我們一起contribute,讓MADlib越做越好琐脏。