Apache頂級(jí)開源項(xiàng)目——機(jī)器學(xué)習(xí)庫MADlib簡介與應(yīng)用實(shí)例

內(nèi)容來源:2017年11月4日,Pivotal Greenplum Madlib研發(fā)工程師梅靖怡在“Greenplum和機(jī)器 學(xué)習(xí)客戶研討會(huì)”進(jìn)行《Machine Learning on Greenplum—MADlib簡介與應(yīng)用實(shí)例》演講分享。IT 大咖說(ID:itdakashuo)作為獨(dú)家視頻合作方顺呕,經(jīng)主辦方和講者審閱授權(quán)發(fā)布括饶。

閱讀字?jǐn)?shù):4809?|6分鐘閱讀

獲取嘉賓完整演講視頻及PPT,請(qǐng)點(diǎn)擊:http://t.cn/Ewvhaca

摘要

Apache MADlib是Pivotal與UCBerkeley合作的一個(gè)開源機(jī)器學(xué)習(xí)庫巷帝,提供了精確的數(shù)據(jù)并行實(shí)現(xiàn)扫夜、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析楞泼。MADlib提供了豐富的分析模型,包括回歸分析笤闯,決策樹颗味,隨機(jī)森林,貝葉斯分類时呀,向量機(jī)晶默,風(fēng)險(xiǎn)模型,KMEAN聚集趴梢,文本挖掘坞靶,數(shù)據(jù)校驗(yàn)等蝴悉。MADlib支持Greenplum,PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大擴(kuò)展了數(shù)據(jù)庫的分析功能拍冠,充分利用MPP架構(gòu)使其能夠快速處理海量數(shù)據(jù)集。本主題將為大家介紹MADlib的基本架構(gòu)妻味,工作原理及特性欣福,分享MADlib在互聯(lián)網(wǎng)责球,金融雏逾,零售等行業(yè)的用戶案例,展望In-Database Machine Learning的廣闊前景屑宠。

MADlib簡介

MADlib是一個(gè)基于SQL的數(shù)據(jù)庫內(nèi)置的可擴(kuò)展機(jī)的器學(xué)習(xí)庫典奉。讓我們來逐一解釋這個(gè)定義丧叽。說起機(jī)器學(xué)習(xí)庫踊淳,同行的朋友應(yīng)該比較熟悉python上的scikit-learn。我們的庫實(shí)現(xiàn)了類似的功能脱茉,但是我們的語法是基于SQL的琴许,也就是說说榆,你可以用select + function name的方式來調(diào)用這個(gè)庫签财。這就意味著偏塞,所有的數(shù)據(jù)調(diào)用和計(jì)算都在Database內(nèi)完成而不需要數(shù)據(jù)的導(dǎo)入導(dǎo)出灸叼。由于應(yīng)用在大規(guī)模并行處理的數(shù)據(jù)庫內(nèi),它的可擴(kuò)展性也非常好屁魏,能夠處理較大量級(jí)的數(shù)據(jù)氓拼。

我們的整個(gè)項(xiàng)目和代碼是在Apache上開源的,到目前為止坏匪,我們已經(jīng)有6個(gè)release, 并且于今年從阿帕奇孵化器畢業(yè)适滓,成為apache的頂級(jí)項(xiàng)目恋追。

我們是一個(gè)在大規(guī)模并行處理系統(tǒng)上的可擴(kuò)展應(yīng)用几于,目前支持PostgreSQL和Pivotal Greenplum沿彭。

MADlib具有強(qiáng)大的數(shù)據(jù)分析能力。我們支持大量的機(jī)器學(xué)習(xí)瞧柔,圖形分析和統(tǒng)計(jì)分析算法造锅。

歷史回顧

MADlib創(chuàng)始于2011年廉邑,當(dāng)時(shí)屬于EMC/Greenplum蛛蒙,后來Greenplum變成了pivotal的Greenplum牵祟。主要由UC Berkeley的一位學(xué)者,Joe Hellerstein發(fā)起咕晋,Stanford, University of Wisconsin-MADISON和University of Florida也有參與收奔。

MAD這個(gè)名字來源于三個(gè)詞坪哄。

M代表Magnetic,有吸引力的殊霞,意味著這個(gè)系統(tǒng)能夠吸引很多的用戶和數(shù)據(jù)汰蓉。傳統(tǒng)的數(shù)據(jù)倉庫對(duì)新數(shù)據(jù)不夠友好顾孽,導(dǎo)入的數(shù)據(jù)往往需要非常干凈和完整。然而MADlib可以做到即使在數(shù)據(jù)不夠整齊的情況下拦英,也能幫助數(shù)據(jù)科學(xué)家進(jìn)行一些有意義的計(jì)算和推斷疤估。

A代表Agile铃拇,敏捷沈撞,意味著這個(gè)系統(tǒng)能夠幫助數(shù)據(jù)科學(xué)家快速有效地處理數(shù)據(jù)缠俺。這有賴于在MADlib在數(shù)據(jù)庫內(nèi)的集成。

D代表Deep磷雇,深入倦春。在大規(guī)模并行集成系統(tǒng)上的應(yīng)用使得數(shù)據(jù)科學(xué)家能夠使用完整的大數(shù)據(jù),而不是在單核的內(nèi)存內(nèi)對(duì)數(shù)據(jù)集的子集進(jìn)行分析忠怖,從而提高了分析的精準(zhǔn)性抄瑟。

三個(gè)字母連在一起,mad這個(gè)詞在英語中除了我們所熟知的瘋狂這個(gè)意思骂维,還有一個(gè)意思是“極好的”贺纲。我們希望MADlib能給數(shù)據(jù)科學(xué)家們提供一個(gè)極好的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析平臺(tái)猴誊。

MADlib用戶

MADlib有非常廣泛的用戶群體懈叹。

目前,我們的用戶涉及金融胧洒,保險(xiǎn)略荡,互聯(lián)網(wǎng)歉胶,醫(yī)療通今,媒體辫塌,娛樂,汽車掺喻,制造等等行業(yè)感耙〖磁穑可以說我們提供的機(jī)器學(xué)習(xí)方法能夠覆蓋大部分行業(yè)的需求屡拨。

MADlib功能

如上圖所示,這個(gè)列表是目前MADlib所支持的算法损离。

監(jiān)督學(xué)習(xí)草冈,我們支持Neural Network, SVM, regression, decision tree怎棱;非監(jiān)督學(xué)習(xí)绷跑,我們支持clustering,topic modeling等砸捏;圖形處理垦藏,我們支持apsp, bfs等等。

另外還有時(shí)間序列處理轰驳,模型選擇级解,基本統(tǒng)計(jì)和數(shù)據(jù)類型轉(zhuǎn)換勤哗。到目前為止我們支持了超過50種算法掩驱,是一個(gè)復(fù)雜而成熟的數(shù)據(jù)科學(xué)學(xué)習(xí)庫欧穴,能夠支持各種復(fù)雜的機(jī)器學(xué)習(xí)場景苔可。

MADlib特性

更好的并行度焚辅。我們?cè)谒惴ㄔO(shè)計(jì)階段就充分考慮了與大規(guī)模并行處理系統(tǒng),基于不同的算法棚点,設(shè)計(jì)不同的分布方式來保證更快的并行處理速度瘫析。

更好的可擴(kuò)展性贬循。隨著數(shù)據(jù)量的增長桃序,我們的擴(kuò)展性非常穩(wěn)定媒熊。

更高的預(yù)測精度芦鳍。處理大數(shù)據(jù)使得更多有效數(shù)據(jù)被利用柠衅,從而實(shí)現(xiàn)更加精確的預(yù)測效果菲宴。

我們是Apache ASF上的頂級(jí)開源項(xiàng)目,我們的開發(fā)是在Pivotal的支持下基于Apache community的付燥,與社區(qū)有非常好的互動(dòng)键科。

MADlib的工作原理

相信很多Greenplum用戶對(duì)這幅圖很熟悉勋颖,這是Greenplum的架構(gòu)饭玲,當(dāng)一個(gè)query進(jìn)來的時(shí)候茄厘,master server會(huì)對(duì)query進(jìn)行處理次哈,按一定規(guī)則把query分配到多個(gè)segment上并行處理,最后的結(jié)果再返回master server窑滞。

MADlib就是構(gòu)建在Greenplum這個(gè)架構(gòu)之上的巨坊。MADlib通過定義postgres上的UDA和UDF建立in-database function此改。當(dāng)我們用sql, r調(diào)用MADlib的時(shí)候带斑,MADlib會(huì)首先進(jìn)行輸入的有效性判斷和數(shù)據(jù)的預(yù)處理勋磕,將處理后的query傳給Greenplum, 之后所有的計(jì)算在Greenplum內(nèi)執(zhí)行挂滓。

執(zhí)行流程

上圖中是整個(gè)過程的執(zhí)行流程赶站。

在客戶端贝椿,我們可以使用jupyter, zeppelin, psql等等工具連接數(shù)據(jù)庫并調(diào)用MADlib function烙博,MADlib處理后根據(jù)算法生成多個(gè)query傳入database, 之后Greenplum執(zhí)行query并返回String, String一般是一個(gè)或多個(gè)存放結(jié)果的表。

MADlib Architecture

這是MADlib的基本架構(gòu),我們的user interface就是sql, 代碼的上層主要是python, 會(huì)做一些input validation和pre-processing. 我們調(diào)用plpy來執(zhí)行查詢位迂。代碼的中間層和底層主要是c++, 我們用c++來調(diào)用eigen libraray. Eigen是C++里處理代數(shù)和幾何的包掂林。C++也調(diào)用了c的API來和DB進(jìn)行交流党饮。

示例– PageRank

下面是一個(gè)MADlib使用示例驳庭,以pagerank這個(gè)算法為例饲常。

PageRank是一種由搜索引擎根據(jù)網(wǎng)頁直接相互的超鏈接來進(jìn)行計(jì)算的技術(shù)贝淤,是網(wǎng)頁排名的一個(gè)重要算法播聪,以google創(chuàng)始人Larry Page的名字來命名离陶。

在MADlib中招刨,計(jì)算一個(gè)圖的pagerank沉眶,需要兩個(gè)表格作為輸入數(shù)據(jù)谎倔,第一個(gè)表格是vertex(節(jié)點(diǎn)),用來保存節(jié)點(diǎn)的信息腻暮,第二個(gè)表是edge(邊)哭靖,用來保存節(jié)點(diǎn)指向節(jié)點(diǎn)的情況试幽。使用MADlib調(diào)用pagerank的步驟如下:select MADlib.pagerank(),這里需要幾個(gè)輸入铺坞。第一個(gè)輸入就是vertex表济榨,第二個(gè)輸入是vertex id這一欄在該表中的名稱擒滑,在示例中的這個(gè)vertex表里,這就是id這一欄藻糖。第三個(gè)輸入是edge table這張表的名稱巨柒,第四個(gè)輸入洋满,指出邊的起點(diǎn)和終點(diǎn)所對(duì)應(yīng)的欄在表里的名稱芦岂,最后一個(gè)輸入是用戶定義的輸出表格禽最,計(jì)算結(jié)果將返回這個(gè)表格川无。

上圖是計(jì)算結(jié)果懦趋,查看pagerank_out這張表格仅叫,可以看到每個(gè)節(jié)點(diǎn)的pagerank分?jǐn)?shù)诫咱。另外洪灯,我們有一個(gè)表格,pagerank_out_summary,存放了收斂迭代的次數(shù)坏快,在這個(gè)例子中莽鸿,計(jì)算迭代了16次之后收斂并返回結(jié)果祥得。

可擴(kuò)展性

MADlib具有良好的可擴(kuò)展性,能夠處理較大量級(jí)的數(shù)據(jù)鸣戴。以pagerank為例啃沪,這張圖顯了隨著邊數(shù)的增加粘拾,完成計(jì)算所需要的時(shí)間窄锅。我們可以看到,1億個(gè)頂點(diǎn)缰雇,從6億條邊到50億條邊入偷,運(yùn)行時(shí)間幾乎保持了線性增長械哟。

這是SVM的Performance

我們可以看到在一億條記錄范圍內(nèi)疏之,運(yùn)行時(shí)間也是接近線性的增長。對(duì)一億條記錄的處理可以在10分鐘內(nèi)完成暇咆。

以上就是對(duì)MADlib的初步介紹锋爪,相信大家已經(jīng)對(duì)MADlib有了一個(gè)初步的了解。接下來是兩個(gè)用戶案例爸业。

用戶案例1 -Greenplum + MADlib助力郵件營銷

首先介紹一個(gè)下案例的背景其骄。我們的客戶是某大型跨國多元化傳媒和娛樂公司,是Greenplum的用戶扯旷。

在這個(gè)案例中拯爽,他們想要提高郵件營銷的精準(zhǔn)度。他們面臨的主要問題有:郵件廣告點(diǎn)擊預(yù)測模型不夠精準(zhǔn)钧忽,需要更好的模型和營銷策略毯炮。其次,他們現(xiàn)有的數(shù)據(jù)分析流程比較繁瑣耸黑,速度較慢并且有很多手工的步驟桃煎,容易出錯(cuò)。在與Pivotal Data Science Team合作之后大刊,我們?yōu)樗麄兲峁┝艘惶捉鉀Q方案备禀。首先,我們充分利用了MADlib的多種功能,簡化了整個(gè)data pipeline曲尸,用MADlib重新建模和預(yù)測赋续,并且實(shí)現(xiàn)了流程的全自動(dòng)化。

這次合作的影響非常顯著另患,首先纽乱,對(duì)于郵件點(diǎn)擊率,我們有了更快昆箕,更高效和更精準(zhǔn)的建模和預(yù)測鸦列,其次,該客戶一直是Greenplum的用戶鹏倘,但對(duì)Greenplum內(nèi)建的各種資源并沒有充分利用薯嗤,這次合作讓他們看到了in-database analytics的高效和快捷,使得他們實(shí)現(xiàn)了in-Greenplum analytics一體化纤泵。

客戶的數(shù)據(jù)源包含了以下信息:user 在mobile 端的購買骆姐,預(yù)訂,注冊(cè)捏题,郵件營銷歷史玻褪,網(wǎng)頁瀏覽歷史,地理信息等等公荧,數(shù)據(jù)量是TB級(jí)別带射,總共的特征超過1000項(xiàng)。整個(gè)過程都在Greenplum這個(gè)平臺(tái)上進(jìn)行循狰。建模工具主要是MADlib,以及一些PL/pgSQL窟社。

以下是該客戶當(dāng)時(shí)的數(shù)據(jù)分析工作流程。原始的數(shù)據(jù)都導(dǎo)入并存在Greenplum中绪钥。之后灿里,數(shù)據(jù)被導(dǎo)入SAS中,進(jìn)行了數(shù)據(jù)清洗和準(zhǔn)備昧识。再之后數(shù)據(jù)又從SAS中導(dǎo)入了EXCEL钠四,在EXCEL中建模計(jì)算Information Value 和Weight of Evidence, 即信息量和證據(jù)權(quán)重。之后跪楞,數(shù)據(jù)被導(dǎo)回SAS缀去,計(jì)算Pairwise Correlation译蒂,一種變量相關(guān)性灿渴。根據(jù)計(jì)算的結(jié)果炮沐,在EXCEL中去除高度相關(guān)的變量崭捍。以上步驟都是為了減少變量的數(shù)量,因?yàn)镾AS上并不能很好地處理超過1000個(gè)的變量黎比。這之后绽昏,數(shù)據(jù)被再次導(dǎo)回SAS,在上面進(jìn)行邏輯回歸悉稠,最后把分析結(jié)果導(dǎo)回Greenplum。由于SAS能夠處理的數(shù)據(jù)量有限赊抖,客戶只能用Sample進(jìn)行建模统倒,所以在最后,數(shù)據(jù)又導(dǎo)回Excel進(jìn)行KS-Score Test, 進(jìn)行Model Validation氛雪。KS-Score Test驗(yàn)證的是樣本分布是否能有效代表總體分布房匆,從而驗(yàn)證模型的有效性。經(jīng)過Validation之后結(jié)果最終被導(dǎo)回Greenplum报亩,手動(dòng)用該模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測浴鸿。

從這個(gè)流程中我們能看到一些問題:

首先,很明顯的弦追,數(shù)據(jù)在Greenplum, SAS和Excel之間多次導(dǎo)入導(dǎo)出岳链,比較繁瑣,這期間也會(huì)存在數(shù)據(jù)格式轉(zhuǎn)換劲件,數(shù)據(jù)丟失等等問題掸哑。

其次,我們可以看到寇仓,在SAS和Excel之間來回的好幾個(gè)步驟其實(shí)都是為了降低維度举户,減少SAS上的變量數(shù)烤宙,由于許多變量沒有得到利用遍烦,這從一定程度上降低了模型預(yù)測的準(zhǔn)確度。

最后躺枕,由于SAS和EXCEL能處理的數(shù)據(jù)有限服猪,客戶只能用樣本數(shù)據(jù)來進(jìn)行建模,沒有充分利用Greenplum里的大數(shù)據(jù)拐云,這也影響了建模的精確度罢猪。

在與Pivotal Data Science合作之后,我們建立了一個(gè)新的工作流程叉瘩。

可以看到膳帕,所有SAS和EXCEL內(nèi)的步驟都被移除了,整個(gè)流程都在Greenplum內(nèi)完成薇缅。在存放好數(shù)據(jù)之后危彩,首先,用MADlib的feature generation來提取特征泳桦,之后運(yùn)調(diào)用不同的MADlib函數(shù)汤徽,計(jì)算Information Value, pairwise correlation,完成特征選擇灸撰。建模階段谒府,直接調(diào)用相關(guān)的邏輯回歸函數(shù)和elastic net拼坎,(用elastic net進(jìn)行變量選擇,然后建立邏輯回歸)完疫。驗(yàn)證階段泰鸡,MADlib提供了很多validation的函數(shù),最后壳鹤,MADlib函數(shù)可以對(duì)新的data進(jìn)行預(yù)測鸟顺。

從數(shù)據(jù)準(zhǔn)備到特征選擇,再到建模器虾,驗(yàn)證和預(yù)測讯嫂,MADlib提供了所有的相關(guān)函數(shù)。對(duì)比之前的步驟數(shù)量兆沙,也從8步變?yōu)榱?步欧芽。另一個(gè)明顯的優(yōu)勢是,這個(gè)模型用到了Greenplum里的所有數(shù)據(jù)葛圃,并且可以使用更多的feature來建模千扔。

此次優(yōu)化使得數(shù)據(jù)分析的整個(gè)環(huán)節(jié)效率都大大提高。在生成數(shù)據(jù)階段库正。原來的時(shí)間是75分鐘曲楚,優(yōu)化后只需要8分鐘,整個(gè)過程速度提高了9倍褥符。Attribute compilation階段龙誊,速度是之前的3倍,并且運(yùn)用了更多的495個(gè)attribute喷楣。在計(jì)算Information Value階段趟大,平均每個(gè)變量的計(jì)算速度是之前的13.7倍。建模階段铣焊,之前一次迭代需要大約30分鐘逊朽,并且只能運(yùn)用小于50個(gè)變量,而在優(yōu)化之后曲伊,平均一次迭代只需要1.86分鐘叽讳,并且可以用376個(gè)變量進(jìn)行回歸分析,平均每次迭代速度是原來的16倍坟募〉涸椋可以看到,整個(gè)數(shù)據(jù)分析流程得到了非常顯著的提速婿屹。

這是建模的結(jié)果灭美。

原始模型的準(zhǔn)確率是99.7%,但是true positive rate是0%昂利。也就是說届腐,原始的模型只能很好地預(yù)測不會(huì)點(diǎn)擊郵件的用戶铁坎,而沒有把握預(yù)測會(huì)點(diǎn)擊郵件的用戶。改良后的模型犁苏,準(zhǔn)確率是62.8%硬萍,看上去好像降低了,但true positive rate是66%围详,這意味著朴乖,該模型有66%的把握預(yù)測出會(huì)點(diǎn)擊郵件的用戶,而這些用戶正是給公司帶來核心價(jià)值的用戶群體助赞。

用戶案例2-基于API日志的金融產(chǎn)品用戶分析

這個(gè)案例的用戶是某大型跨國金融服務(wù)公司买羞。他們的case主要是手機(jī)mobile app API的分析。

他們主要面臨以下問題:1.如何利用API日志更好地理解不同種類的用戶雹食,2.如何更好地理解用戶與APP的交互 3. 如何對(duì)實(shí)時(shí)API請(qǐng)求進(jìn)行分類和安全檢測 3. 現(xiàn)有API日志數(shù)據(jù)量很大畜普,現(xiàn)有數(shù)據(jù)分析團(tuán)隊(duì)缺乏大數(shù)據(jù)分析技能。

在與Pivotal合作后群叶,我們?yōu)樗麄兲峁┝艘韵陆鉀Q方案:使用MADlib進(jìn)行聚類分析吃挑,建立一個(gè)sessionization模型。建立一個(gè)scoring pipeline街立,對(duì)新的訪問進(jìn)行評(píng)估舶衬,使用visualization tool更好地呈現(xiàn)結(jié)果。

這次合作的商業(yè)影響也是非常顯著的赎离。首先逛犹,我們針對(duì)不同的分析師建立了多個(gè)用戶類型分類,能夠及時(shí)把某種特定類型的用戶信息傳到相應(yīng)的分析師手上蟹瘾。其次建立了實(shí)時(shí)訪問安全評(píng)分系統(tǒng)圾浅,對(duì)可疑訪問進(jìn)行及時(shí)處理掠手,最后使用Greenplum + MADlib的形式憾朴,使得大數(shù)據(jù)的得到了更加充分的挖掘。

這個(gè)項(xiàng)目的數(shù)據(jù)源主要包括用戶的api 訪問日志和customer profile喷鸽,涉及45天的訪問情況众雷,50億行數(shù)據(jù),百萬級(jí)別的用戶信息做祝。平臺(tái)依然是Greenplum砾省,建模主要用到了MADlib, PLR, PL/PYTHON和PDLTools。PDLTools是Pivotal data science 的另一套數(shù)據(jù)科學(xué)包混槐”嘈郑可視化主要在Tableau上進(jìn)行。

如圖所示是整個(gè)建模的過程声登。由于篇幅關(guān)系在此不做詳述狠鸳。

案例總結(jié)

首先揣苏,在改良之前,用戶雖然使用了Greenplum件舵,但依然在R上對(duì)data sample進(jìn)行分析卸察,DCA閑置。改良后铅祸,用戶使用Greenplum+MADlib對(duì)大數(shù)據(jù)集進(jìn)行了更充分的分析坑质。

第二,在改良前临梗,用戶沒有建立起良好的用戶分類體系涡扼,合作完成后,他們建立了兩套模型對(duì)典型用戶進(jìn)行聚類分析盟庞,對(duì)用戶群體和用戶習(xí)慣有了更深入的了解壳澳,制定相應(yīng)的營銷策略。

第三茫经,之前的model不能高效檢測可疑的session巷波,改良后,客戶建立起了對(duì)可疑session實(shí)時(shí)評(píng)分體系卸伞。

最后抹镊,在合作之前,客戶在評(píng)估是否轉(zhuǎn)換到Teradata上荤傲,但是改良后垮耳,他們決定放棄Teradata,增加GREENPLUM cluster的數(shù)量遂黍,充分證明了Greenplum在數(shù)據(jù)分析方面的優(yōu)秀表現(xiàn)终佛。

總結(jié)與展望

通過使用MADlib,我們能夠進(jìn)行g(shù)raph, clustering, regression, classification等統(tǒng)計(jì)和機(jī)器學(xué)習(xí)分析雾家,此外铃彰,我們還有GPText進(jìn)行文本分析,Geospatial進(jìn)行地理空間分析芯咧。Greenplum也能很好地支持BI reporting tool牙捉,實(shí)現(xiàn)快速的數(shù)據(jù)可視化。我們的理念就是ALLIN ONE DATABASE敬飒,讓分析變得更便捷和更高效邪铲。

我們很快將要發(fā)布版本1.13,在這個(gè)版本中无拗,將會(huì)加入一些新的圖形方面的算法带到,包括HITS和Graph cut,我們會(huì)支持mini-batching英染,加快計(jì)算的速度揽惹,同時(shí)晌纫,隨著新版postgres 10的發(fā)布,我們也會(huì)加入對(duì)新版本的支持永丝。

下一個(gè)版本發(fā)布是2.0锹漱,我們會(huì)有一些Interface方面的改動(dòng),算法方面慕嚷,在圖形方面會(huì)加入特征向量中心性哥牍,中間中心性等。SVM喝检,我們會(huì)加入Multiclass嗅辣,另外,我們會(huì)加入gradient boosted machines(GBM)做boosting挠说。最后澡谭,我們會(huì)加入更多的utility function來預(yù)處理數(shù)據(jù)。

2018年损俭,我們的開發(fā)重心會(huì)放在deep learning上蛙奖,相信我們能為大家提供更多深度方面的支持。

上圖是MADlib相關(guān)的resource杆兵,我們是全開源的雁仲,歡迎大家瀏覽或者和我們一起contribute,讓MADlib越做越好琐脏。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末攒砖,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子日裙,更是在濱河造成了極大的恐慌吹艇,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件昂拂,死亡現(xiàn)場離奇詭異受神,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)政钟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門路克,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人养交,你說我怎么就攤上這事∑盎拢” “怎么了碎连?”我有些...
    開封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長驮履。 經(jīng)常有香客問我鱼辙,道長廉嚼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任倒戏,我火速辦了婚禮怠噪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘杜跷。我一直安慰自己傍念,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開白布葛闷。 她就那樣靜靜地躺著憋槐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪淑趾。 梳的紋絲不亂的頭發(fā)上阳仔,一...
    開封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音扣泊,去河邊找鬼近范。 笑死,一個(gè)胖子當(dāng)著我的面吹牛延蟹,可吹牛的內(nèi)容都是我干的顺又。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼等孵,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼稚照!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起俯萌,我...
    開封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤果录,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后咐熙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弱恒,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年棋恼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了返弹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡爪飘,死狀恐怖义起,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情师崎,我是刑警寧澤默终,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響齐蔽,放射性物質(zhì)發(fā)生泄漏两疚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一含滴、第九天 我趴在偏房一處隱蔽的房頂上張望诱渤。 院中可真熱鬧,春花似錦谈况、人聲如沸勺美。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽励烦。三九已至,卻和暖如春泼诱,著一層夾襖步出監(jiān)牢的瞬間坛掠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來泰國打工治筒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屉栓,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓耸袜,卻偏偏與公主長得像友多,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子堤框,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 其實(shí)我們每個(gè)人都是幸福者 只是人人都身在福中不知福 有錢的很幸福域滥, 你有很多錢。 還有很多為了你的錢而喜歡你的人蜈抓。...
    可愛得像鬼閱讀 233評(píng)論 0 1
  • 我是純生產(chǎn)者启绰,想和小伙伴們分享下關(guān)于生活工作中和人類圖相關(guān)的聯(lián)系。 我的第一份藥品行業(yè)工作11年沟使,有可能是生產(chǎn)者委可,...
    劉俊_ef03閱讀 397評(píng)論 0 1
  • 微風(fēng)從我臉龐拂過,是那般溫暖腊嗡,輕柔着倾,我知道,這是一個(gè)春季的到來燕少。選擇一個(gè)陽光愜意的午后卡者,單獨(dú)漫步在林間小路,領(lǐng)會(huì)春...
    af7945e83f4f閱讀 211評(píng)論 0 0
  • 小屋的亮光又出現(xiàn)了棺亭,在這個(gè)陌生的城市虎眨,這一小小的屋檐蟋软,就是兩個(gè)有夢(mèng)想的女孩的棲身之地镶摘。 只聽得“哎呦~”一聲嗽桩,單梅...
    沙里淘金閱讀 707評(píng)論 2 0
  • 一、JavaScript中數(shù)組的定義 數(shù)組的標(biāo)準(zhǔn)定義:一個(gè)存儲(chǔ)元素的線性集合(collection)凄敢,元素可以通過...
    54黃藥師閱讀 937評(píng)論 0 1