Apache頂級(jí)開源項(xiàng)目——機(jī)器學(xué)習(xí)庫MADlib簡介與應(yīng)用實(shí)例

內(nèi)容來源：2017年11月4日，Pivotal Greenplum Madlib研發(fā)工程師梅靖怡在“Greenplum和機(jī)器學(xué)習(xí)客戶研討會(huì)”進(jìn)行《Machine Learning on Greenplum—MADlib簡介與應(yīng)用實(shí)例》演講分享。IT 大咖說（ID：itdakashuo）作為獨(dú)家視頻合作方顺呕，經(jīng)主辦方和講者審閱授權(quán)發(fā)布括饶。

閱讀字?jǐn)?shù)：4809?|6分鐘閱讀

獲取嘉賓完整演講視頻及PPT，請(qǐng)點(diǎn)擊：http://t.cn/Ewvhaca

摘要

Apache MADlib是Pivotal與UCBerkeley合作的一個(gè)開源機(jī)器學(xué)習(xí)庫巷帝，提供了精確的數(shù)據(jù)并行實(shí)現(xiàn)扫夜、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析楞泼。MADlib提供了豐富的分析模型，包括回歸分析笤闯，決策樹颗味，隨機(jī)森林，貝葉斯分類时呀，向量機(jī)晶默，風(fēng)險(xiǎn)模型，KMEAN聚集趴梢，文本挖掘坞靶，數(shù)據(jù)校驗(yàn)等蝴悉。MADlib支持Greenplum,PostgreSQL 以及 Apache HAWQ, In-Database Analytics的特性使其大大擴(kuò)展了數(shù)據(jù)庫的分析功能拍冠，充分利用MPP架構(gòu)使其能夠快速處理海量數(shù)據(jù)集。本主題將為大家介紹MADlib的基本架構(gòu)妻味，工作原理及特性欣福，分享MADlib在互聯(lián)網(wǎng)责球，金融雏逾，零售等行業(yè)的用戶案例，展望In-Database Machine Learning的廣闊前景屑宠。

MADlib簡介

MADlib是一個(gè)基于SQL的數(shù)據(jù)庫內(nèi)置的可擴(kuò)展機(jī)的器學(xué)習(xí)庫典奉。讓我們來逐一解釋這個(gè)定義丧叽。說起機(jī)器學(xué)習(xí)庫踊淳，同行的朋友應(yīng)該比較熟悉python上的scikit-learn。我們的庫實(shí)現(xiàn)了類似的功能脱茉，但是我們的語法是基于SQL的琴许，也就是說说榆，你可以用select + function name的方式來調(diào)用這個(gè)庫签财。這就意味著偏塞，所有的數(shù)據(jù)調(diào)用和計(jì)算都在Database內(nèi)完成而不需要數(shù)據(jù)的導(dǎo)入導(dǎo)出灸叼。由于應(yīng)用在大規(guī)模并行處理的數(shù)據(jù)庫內(nèi)，它的可擴(kuò)展性也非常好屁魏，能夠處理較大量級(jí)的數(shù)據(jù)氓拼。

我們的整個(gè)項(xiàng)目和代碼是在Apache上開源的，到目前為止坏匪，我們已經(jīng)有6個(gè)release, 并且于今年從阿帕奇孵化器畢業(yè)适滓，成為apache的頂級(jí)項(xiàng)目恋追。

我們是一個(gè)在大規(guī)模并行處理系統(tǒng)上的可擴(kuò)展應(yīng)用几于，目前支持PostgreSQL和Pivotal Greenplum沿彭。

MADlib具有強(qiáng)大的數(shù)據(jù)分析能力。我們支持大量的機(jī)器學(xué)習(xí)瞧柔，圖形分析和統(tǒng)計(jì)分析算法造锅。

歷史回顧

MADlib創(chuàng)始于2011年廉邑，當(dāng)時(shí)屬于EMC/Greenplum蛛蒙，后來Greenplum變成了pivotal的Greenplum牵祟。主要由UC Berkeley的一位學(xué)者，Joe Hellerstein發(fā)起咕晋，Stanford, University of Wisconsin-MADISON和University of Florida也有參與收奔。

MAD這個(gè)名字來源于三個(gè)詞坪哄。

M代表Magnetic，有吸引力的殊霞，意味著這個(gè)系統(tǒng)能夠吸引很多的用戶和數(shù)據(jù)汰蓉。傳統(tǒng)的數(shù)據(jù)倉庫對(duì)新數(shù)據(jù)不夠友好顾孽，導(dǎo)入的數(shù)據(jù)往往需要非常干凈和完整。然而MADlib可以做到即使在數(shù)據(jù)不夠整齊的情況下拦英，也能幫助數(shù)據(jù)科學(xué)家進(jìn)行一些有意義的計(jì)算和推斷疤估。

A代表Agile铃拇，敏捷沈撞，意味著這個(gè)系統(tǒng)能夠幫助數(shù)據(jù)科學(xué)家快速有效地處理數(shù)據(jù)缠俺。這有賴于在MADlib在數(shù)據(jù)庫內(nèi)的集成。

D代表Deep磷雇，深入倦春。在大規(guī)模并行集成系統(tǒng)上的應(yīng)用使得數(shù)據(jù)科學(xué)家能夠使用完整的大數(shù)據(jù)，而不是在單核的內(nèi)存內(nèi)對(duì)數(shù)據(jù)集的子集進(jìn)行分析忠怖，從而提高了分析的精準(zhǔn)性抄瑟。

三個(gè)字母連在一起，mad這個(gè)詞在英語中除了我們所熟知的瘋狂這個(gè)意思骂维，還有一個(gè)意思是“極好的”贺纲。我們希望MADlib能給數(shù)據(jù)科學(xué)家們提供一個(gè)極好的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析平臺(tái)猴誊。

MADlib用戶

MADlib有非常廣泛的用戶群體懈叹。

目前，我們的用戶涉及金融胧洒，保險(xiǎn)略荡，互聯(lián)網(wǎng)歉胶，醫(yī)療通今，媒體辫塌，娛樂，汽車掺喻，制造等等行業(yè)感耙〖磁穑可以說我們提供的機(jī)器學(xué)習(xí)方法能夠覆蓋大部分行業(yè)的需求屡拨。

MADlib功能

如上圖所示，這個(gè)列表是目前MADlib所支持的算法损离。

監(jiān)督學(xué)習(xí)草冈，我們支持Neural Network, SVM, regression, decision tree怎棱；非監(jiān)督學(xué)習(xí)绷跑，我們支持clustering,topic modeling等砸捏；圖形處理垦藏，我們支持apsp, bfs等等。

另外還有時(shí)間序列處理轰驳，模型選擇级解，基本統(tǒng)計(jì)和數(shù)據(jù)類型轉(zhuǎn)換勤哗。到目前為止我們支持了超過50種算法掩驱，是一個(gè)復(fù)雜而成熟的數(shù)據(jù)科學(xué)學(xué)習(xí)庫欧穴，能夠支持各種復(fù)雜的機(jī)器學(xué)習(xí)場景苔可。

MADlib特性

更好的并行度焚辅。我們?cè)谒惴ㄔO(shè)計(jì)階段就充分考慮了與大規(guī)模并行處理系統(tǒng)，基于不同的算法棚点，設(shè)計(jì)不同的分布方式來保證更快的并行處理速度瘫析。

更好的可擴(kuò)展性贬循。隨著數(shù)據(jù)量的增長桃序，我們的擴(kuò)展性非常穩(wěn)定媒熊。

更高的預(yù)測精度芦鳍。處理大數(shù)據(jù)使得更多有效數(shù)據(jù)被利用柠衅，從而實(shí)現(xiàn)更加精確的預(yù)測效果菲宴。

我們是Apache ASF上的頂級(jí)開源項(xiàng)目，我們的開發(fā)是在Pivotal的支持下基于Apache community的付燥，與社區(qū)有非常好的互動(dòng)键科。

MADlib的工作原理

相信很多Greenplum用戶對(duì)這幅圖很熟悉勋颖，這是Greenplum的架構(gòu)饭玲，當(dāng)一個(gè)query進(jìn)來的時(shí)候茄厘，master server會(huì)對(duì)query進(jìn)行處理次哈，按一定規(guī)則把query分配到多個(gè)segment上并行處理，最后的結(jié)果再返回master server窑滞。

MADlib就是構(gòu)建在Greenplum這個(gè)架構(gòu)之上的巨坊。MADlib通過定義postgres上的UDA和UDF建立in-database function此改。當(dāng)我們用sql, r調(diào)用MADlib的時(shí)候带斑，MADlib會(huì)首先進(jìn)行輸入的有效性判斷和數(shù)據(jù)的預(yù)處理勋磕，將處理后的query傳給Greenplum, 之后所有的計(jì)算在Greenplum內(nèi)執(zhí)行挂滓。

執(zhí)行流程

上圖中是整個(gè)過程的執(zhí)行流程赶站。

在客戶端贝椿，我們可以使用jupyter, zeppelin, psql等等工具連接數(shù)據(jù)庫并調(diào)用MADlib function烙博，MADlib處理后根據(jù)算法生成多個(gè)query傳入database, 之后Greenplum執(zhí)行query并返回String, String一般是一個(gè)或多個(gè)存放結(jié)果的表。

MADlib Architecture

這是MADlib的基本架構(gòu)，我們的user interface就是sql, 代碼的上層主要是python, 會(huì)做一些input validation和pre-processing. 我們調(diào)用plpy來執(zhí)行查詢位迂。代碼的中間層和底層主要是c++, 我們用c++來調(diào)用eigen libraray. Eigen是C++里處理代數(shù)和幾何的包掂林。C++也調(diào)用了c的API來和DB進(jìn)行交流党饮。

示例– PageRank

下面是一個(gè)MADlib使用示例驳庭，以pagerank這個(gè)算法為例饲常。

PageRank是一種由搜索引擎根據(jù)網(wǎng)頁直接相互的超鏈接來進(jìn)行計(jì)算的技術(shù)贝淤，是網(wǎng)頁排名的一個(gè)重要算法播聪，以google創(chuàng)始人Larry Page的名字來命名离陶。

在MADlib中招刨，計(jì)算一個(gè)圖的pagerank沉眶，需要兩個(gè)表格作為輸入數(shù)據(jù)谎倔，第一個(gè)表格是vertex（節(jié)點(diǎn)），用來保存節(jié)點(diǎn)的信息腻暮，第二個(gè)表是edge（邊）哭靖，用來保存節(jié)點(diǎn)指向節(jié)點(diǎn)的情況试幽。使用MADlib調(diào)用pagerank的步驟如下：select MADlib.pagerank(),這里需要幾個(gè)輸入铺坞。第一個(gè)輸入就是vertex表济榨，第二個(gè)輸入是vertex id這一欄在該表中的名稱擒滑，在示例中的這個(gè)vertex表里，這就是id這一欄藻糖。第三個(gè)輸入是edge table這張表的名稱巨柒，第四個(gè)輸入洋满，指出邊的起點(diǎn)和終點(diǎn)所對(duì)應(yīng)的欄在表里的名稱芦岂，最后一個(gè)輸入是用戶定義的輸出表格禽最，計(jì)算結(jié)果將返回這個(gè)表格川无。

上圖是計(jì)算結(jié)果懦趋，查看pagerank_out這張表格仅叫，可以看到每個(gè)節(jié)點(diǎn)的pagerank分?jǐn)?shù)诫咱。另外洪灯，我們有一個(gè)表格，pagerank_out_summary,存放了收斂迭代的次數(shù)坏快，在這個(gè)例子中莽鸿，計(jì)算迭代了16次之后收斂并返回結(jié)果祥得。

可擴(kuò)展性

MADlib具有良好的可擴(kuò)展性，能夠處理較大量級(jí)的數(shù)據(jù)鸣戴。以pagerank為例啃沪，這張圖顯了隨著邊數(shù)的增加粘拾，完成計(jì)算所需要的時(shí)間窄锅。我們可以看到，1億個(gè)頂點(diǎn)缰雇，從6億條邊到50億條邊入偷，運(yùn)行時(shí)間幾乎保持了線性增長械哟。

這是SVM的Performance

我們可以看到在一億條記錄范圍內(nèi)疏之，運(yùn)行時(shí)間也是接近線性的增長。對(duì)一億條記錄的處理可以在10分鐘內(nèi)完成暇咆。

以上就是對(duì)MADlib的初步介紹锋爪，相信大家已經(jīng)對(duì)MADlib有了一個(gè)初步的了解。接下來是兩個(gè)用戶案例爸业。

用戶案例1 -Greenplum + MADlib助力郵件營銷

首先介紹一個(gè)下案例的背景其骄。我們的客戶是某大型跨國多元化傳媒和娛樂公司，是Greenplum的用戶扯旷。

在這個(gè)案例中拯爽，他們想要提高郵件營銷的精準(zhǔn)度。他們面臨的主要問題有：郵件廣告點(diǎn)擊預(yù)測模型不夠精準(zhǔn)钧忽，需要更好的模型和營銷策略毯炮。其次，他們現(xiàn)有的數(shù)據(jù)分析流程比較繁瑣耸黑，速度較慢并且有很多手工的步驟桃煎，容易出錯(cuò)。在與Pivotal Data Science Team合作之后大刊，我們?yōu)樗麄兲峁┝艘惶捉鉀Q方案备禀。首先，我們充分利用了MADlib的多種功能，簡化了整個(gè)data pipeline曲尸，用MADlib重新建模和預(yù)測赋续，并且實(shí)現(xiàn)了流程的全自動(dòng)化。

這次合作的影響非常顯著另患，首先纽乱，對(duì)于郵件點(diǎn)擊率，我們有了更快昆箕，更高效和更精準(zhǔn)的建模和預(yù)測鸦列，其次，該客戶一直是Greenplum的用戶鹏倘，但對(duì)Greenplum內(nèi)建的各種資源并沒有充分利用薯嗤，這次合作讓他們看到了in-database analytics的高效和快捷，使得他們實(shí)現(xiàn)了in-Greenplum analytics一體化纤泵。

客戶的數(shù)據(jù)源包含了以下信息：user 在mobile 端的購買骆姐，預(yù)訂，注冊(cè)捏题，郵件營銷歷史玻褪，網(wǎng)頁瀏覽歷史，地理信息等等公荧，數(shù)據(jù)量是TB級(jí)別带射，總共的特征超過1000項(xiàng)。整個(gè)過程都在Greenplum這個(gè)平臺(tái)上進(jìn)行循狰。建模工具主要是MADlib,以及一些PL/pgSQL窟社。

以下是該客戶當(dāng)時(shí)的數(shù)據(jù)分析工作流程。原始的數(shù)據(jù)都導(dǎo)入并存在Greenplum中绪钥。之后灿里，數(shù)據(jù)被導(dǎo)入SAS中，進(jìn)行了數(shù)據(jù)清洗和準(zhǔn)備昧识。再之后數(shù)據(jù)又從SAS中導(dǎo)入了EXCEL钠四，在EXCEL中建模計(jì)算Information Value 和Weight of Evidence, 即信息量和證據(jù)權(quán)重。之后跪楞，數(shù)據(jù)被導(dǎo)回SAS缀去，計(jì)算Pairwise Correlation译蒂，一種變量相關(guān)性灿渴。根據(jù)計(jì)算的結(jié)果炮沐，在EXCEL中去除高度相關(guān)的變量崭捍。以上步驟都是為了減少變量的數(shù)量，因?yàn)镾AS上并不能很好地處理超過1000個(gè)的變量黎比。這之后绽昏，數(shù)據(jù)被再次導(dǎo)回SAS,在上面進(jìn)行邏輯回歸悉稠，最后把分析結(jié)果導(dǎo)回Greenplum。由于SAS能夠處理的數(shù)據(jù)量有限赊抖，客戶只能用Sample進(jìn)行建模统倒，所以在最后，數(shù)據(jù)又導(dǎo)回Excel進(jìn)行KS-Score Test, 進(jìn)行Model Validation氛雪。KS-Score Test驗(yàn)證的是樣本分布是否能有效代表總體分布房匆，從而驗(yàn)證模型的有效性。經(jīng)過Validation之后結(jié)果最終被導(dǎo)回Greenplum报亩，手動(dòng)用該模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測浴鸿。

從這個(gè)流程中我們能看到一些問題：

首先，很明顯的弦追，數(shù)據(jù)在Greenplum, SAS和Excel之間多次導(dǎo)入導(dǎo)出岳链，比較繁瑣，這期間也會(huì)存在數(shù)據(jù)格式轉(zhuǎn)換劲件，數(shù)據(jù)丟失等等問題掸哑。

其次，我們可以看到寇仓，在SAS和Excel之間來回的好幾個(gè)步驟其實(shí)都是為了降低維度举户，減少SAS上的變量數(shù)烤宙，由于許多變量沒有得到利用遍烦，這從一定程度上降低了模型預(yù)測的準(zhǔn)確度。

最后躺枕，由于SAS和EXCEL能處理的數(shù)據(jù)有限服猪，客戶只能用樣本數(shù)據(jù)來進(jìn)行建模，沒有充分利用Greenplum里的大數(shù)據(jù)拐云，這也影響了建模的精確度罢猪。

在與Pivotal Data Science合作之后，我們建立了一個(gè)新的工作流程叉瘩。

可以看到膳帕，所有SAS和EXCEL內(nèi)的步驟都被移除了，整個(gè)流程都在Greenplum內(nèi)完成薇缅。在存放好數(shù)據(jù)之后危彩，首先，用MADlib的feature generation來提取特征泳桦，之后運(yùn)調(diào)用不同的MADlib函數(shù)汤徽，計(jì)算Information Value, pairwise correlation，完成特征選擇灸撰。建模階段谒府，直接調(diào)用相關(guān)的邏輯回歸函數(shù)和elastic net拼坎，（用elastic net進(jìn)行變量選擇，然后建立邏輯回歸）完疫。驗(yàn)證階段泰鸡，MADlib提供了很多validation的函數(shù)，最后壳鹤，MADlib函數(shù)可以對(duì)新的data進(jìn)行預(yù)測鸟顺。

從數(shù)據(jù)準(zhǔn)備到特征選擇，再到建模器虾，驗(yàn)證和預(yù)測讯嫂，MADlib提供了所有的相關(guān)函數(shù)。對(duì)比之前的步驟數(shù)量兆沙，也從8步變?yōu)榱?步欧芽。另一個(gè)明顯的優(yōu)勢是，這個(gè)模型用到了Greenplum里的所有數(shù)據(jù)葛圃，并且可以使用更多的feature來建模千扔。

此次優(yōu)化使得數(shù)據(jù)分析的整個(gè)環(huán)節(jié)效率都大大提高。在生成數(shù)據(jù)階段库正。原來的時(shí)間是75分鐘曲楚，優(yōu)化后只需要8分鐘，整個(gè)過程速度提高了9倍褥符。Attribute compilation階段龙誊，速度是之前的3倍，并且運(yùn)用了更多的495個(gè)attribute喷楣。在計(jì)算Information Value階段趟大，平均每個(gè)變量的計(jì)算速度是之前的13.7倍。建模階段铣焊，之前一次迭代需要大約30分鐘逊朽，并且只能運(yùn)用小于50個(gè)變量，而在優(yōu)化之后曲伊，平均一次迭代只需要1.86分鐘叽讳，并且可以用376個(gè)變量進(jìn)行回歸分析，平均每次迭代速度是原來的16倍坟募〉涸椋可以看到，整個(gè)數(shù)據(jù)分析流程得到了非常顯著的提速婿屹。

這是建模的結(jié)果灭美。

原始模型的準(zhǔn)確率是99.7%，但是true positive rate是0%昂利。也就是說届腐，原始的模型只能很好地預(yù)測不會(huì)點(diǎn)擊郵件的用戶铁坎，而沒有把握預(yù)測會(huì)點(diǎn)擊郵件的用戶。改良后的模型犁苏，準(zhǔn)確率是62.8%硬萍，看上去好像降低了，但true positive rate是66%围详，這意味著朴乖，該模型有66%的把握預(yù)測出會(huì)點(diǎn)擊郵件的用戶，而這些用戶正是給公司帶來核心價(jià)值的用戶群體助赞。

用戶案例2-基于API日志的金融產(chǎn)品用戶分析

這個(gè)案例的用戶是某大型跨國金融服務(wù)公司买羞。他們的case主要是手機(jī)mobile app API的分析。

他們主要面臨以下問題：1.如何利用API日志更好地理解不同種類的用戶雹食，2.如何更好地理解用戶與APP的交互 3. 如何對(duì)實(shí)時(shí)API請(qǐng)求進(jìn)行分類和安全檢測 3. 現(xiàn)有API日志數(shù)據(jù)量很大畜普，現(xiàn)有數(shù)據(jù)分析團(tuán)隊(duì)缺乏大數(shù)據(jù)分析技能。

在與Pivotal合作后群叶，我們?yōu)樗麄兲峁┝艘韵陆鉀Q方案：使用MADlib進(jìn)行聚類分析吃挑，建立一個(gè)sessionization模型。建立一個(gè)scoring pipeline街立，對(duì)新的訪問進(jìn)行評(píng)估舶衬，使用visualization tool更好地呈現(xiàn)結(jié)果。

這次合作的商業(yè)影響也是非常顯著的赎离。首先逛犹，我們針對(duì)不同的分析師建立了多個(gè)用戶類型分類，能夠及時(shí)把某種特定類型的用戶信息傳到相應(yīng)的分析師手上蟹瘾。其次建立了實(shí)時(shí)訪問安全評(píng)分系統(tǒng)圾浅，對(duì)可疑訪問進(jìn)行及時(shí)處理掠手，最后使用Greenplum + MADlib的形式憾朴，使得大數(shù)據(jù)的得到了更加充分的挖掘。

這個(gè)項(xiàng)目的數(shù)據(jù)源主要包括用戶的api 訪問日志和customer profile喷鸽，涉及45天的訪問情況众雷，50億行數(shù)據(jù)，百萬級(jí)別的用戶信息做祝。平臺(tái)依然是Greenplum砾省，建模主要用到了MADlib, PLR, PL/PYTHON和PDLTools。PDLTools是Pivotal data science 的另一套數(shù)據(jù)科學(xué)包混槐”嘈郑可視化主要在Tableau上進(jìn)行。

如圖所示是整個(gè)建模的過程声登。由于篇幅關(guān)系在此不做詳述狠鸳。

案例總結(jié)

首先揣苏，在改良之前，用戶雖然使用了Greenplum件舵，但依然在R上對(duì)data sample進(jìn)行分析卸察，DCA閑置。改良后铅祸，用戶使用Greenplum+MADlib對(duì)大數(shù)據(jù)集進(jìn)行了更充分的分析坑质。

第二，在改良前临梗，用戶沒有建立起良好的用戶分類體系涡扼，合作完成后，他們建立了兩套模型對(duì)典型用戶進(jìn)行聚類分析盟庞，對(duì)用戶群體和用戶習(xí)慣有了更深入的了解壳澳，制定相應(yīng)的營銷策略。

第三茫经，之前的model不能高效檢測可疑的session巷波，改良后，客戶建立起了對(duì)可疑session實(shí)時(shí)評(píng)分體系卸伞。

最后抹镊，在合作之前，客戶在評(píng)估是否轉(zhuǎn)換到Teradata上荤傲，但是改良后垮耳，他們決定放棄Teradata，增加GREENPLUM cluster的數(shù)量遂黍，充分證明了Greenplum在數(shù)據(jù)分析方面的優(yōu)秀表現(xiàn)终佛。

總結(jié)與展望

通過使用MADlib，我們能夠進(jìn)行g(shù)raph, clustering, regression, classification等統(tǒng)計(jì)和機(jī)器學(xué)習(xí)分析雾家，此外铃彰，我們還有GPText進(jìn)行文本分析，Geospatial進(jìn)行地理空間分析芯咧。Greenplum也能很好地支持BI reporting tool牙捉，實(shí)現(xiàn)快速的數(shù)據(jù)可視化。我們的理念就是ALLIN ONE DATABASE敬飒，讓分析變得更便捷和更高效邪铲。

我們很快將要發(fā)布版本1.13，在這個(gè)版本中无拗，將會(huì)加入一些新的圖形方面的算法带到，包括HITS和Graph cut，我們會(huì)支持mini-batching英染，加快計(jì)算的速度揽惹，同時(shí)晌纫，隨著新版postgres 10的發(fā)布，我們也會(huì)加入對(duì)新版本的支持永丝。

下一個(gè)版本發(fā)布是2.0锹漱，我們會(huì)有一些Interface方面的改動(dòng)，算法方面慕嚷，在圖形方面會(huì)加入特征向量中心性哥牍，中間中心性等。SVM喝检，我們會(huì)加入Multiclass嗅辣，另外，我們會(huì)加入gradient boosted machines（GBM）做boosting挠说。最后澡谭，我們會(huì)加入更多的utility function來預(yù)處理數(shù)據(jù)。

2018年损俭，我們的開發(fā)重心會(huì)放在deep learning上蛙奖，相信我們能為大家提供更多深度方面的支持。

上圖是MADlib相關(guān)的resource杆兵，我們是全開源的雁仲，歡迎大家瀏覽或者和我們一起contribute，讓MADlib越做越好琐脏。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末攒砖，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子日裙，更是在濱河造成了極大的恐慌吹艇，老刑警劉巖，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件昂拂，死亡現(xiàn)場離奇詭異受神，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)政钟，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門路克，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人养交，你說我怎么就攤上這事∑盎拢” “怎么了碎连？”我有些...
開封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長驮履。經(jīng)常有香客問我鱼辙，道長廉嚼，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任倒戏，我火速辦了婚禮怠噪，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘杜跷。我一直安慰自己傍念，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布葛闷。她就那樣靜靜地躺著憋槐，像睡著了一般。火紅的嫁衣襯著肌膚如雪淑趾。梳的紋絲不亂的頭發(fā)上阳仔，一...
開封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音扣泊，去河邊找鬼近范。笑死，一個(gè)胖子當(dāng)著我的面吹牛延蟹，可吹牛的內(nèi)容都是我干的顺又。我是一名探鬼主播，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼等孵，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼稚照！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起俯萌，我...
開封第一講書人閱讀 39,062評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤果录，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后咐熙，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弱恒，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年棋恼，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了返弹。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡爪飘，死狀恐怖义起，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情师崎，我是刑警寧澤默终，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響齐蔽，放射性物質(zhì)發(fā)生泄漏两疚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一含滴、第九天我趴在偏房一處隱蔽的房頂上張望诱渤。院中可真熱鬧，春花似錦谈况、人聲如沸勺美。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案鸦做，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽励烦。三九已至，卻和暖如春泼诱，著一層夾襖步出監(jiān)牢的瞬間坛掠，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工治筒，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屉栓，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓耸袜，卻偏偏與公主長得像友多，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子堤框，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354