GitHub上排名前10的機器學習項目薪韩,包括一些庫确沸、框架和教育資源捌锭。讓我們一起學習一下這些工具和資源。
關于轉載授權
大數(shù)據(jù)文摘作品罗捎,歡迎個人轉發(fā)朋友圈观谦,自媒體、媒體桨菜、機構轉載務必申請授權豁状,后臺留言“機構名稱+文章標題+轉載”,申請過授權的不必再次申請倒得,只要按約定轉載即可泻红,但文末需放置大數(shù)據(jù)文摘二維碼。
選文:孫強
整理翻譯:孫強霞掺,HeHe谊路, Dr Guo, Mano
原文鏈接:http://www.kdnuggets.com/2015/12/top-10-machine-learning-github.html/2
摘要:GitHub上排名前10的機器學習項目,包括一些庫根悼、框架和教育資源凶异。讓我們一起學習一下這些工具和資源。
10個項目被點贊和ForK的數(shù)量代表了它們受歡迎的程度(文中★表示點贊挤巡,Y表示Fork)
開源軟件是數(shù)據(jù)科學拼圖中重要的一塊。根據(jù)最近KDnuggets對數(shù)據(jù)科學軟件所做的調(diào)查結果酷麦,過去的12個月內(nèi)矿卑,有73%的數(shù)據(jù)科學家使用的是免費軟件。雖然互聯(lián)網(wǎng)有很多免費軟件來源沃饶,Github已然成為所有開源軟件的信息交流中心母廷,包括那些用于在數(shù)據(jù)科學界的工具。機器學習對于數(shù)據(jù)科學而言糊肤,其重要性和中心地位琴昆,不言而喻。以下所列馆揉,是Github上排名前10位的機器學習項目的概況业舍。
ScikitLearn
★ 8641, Y 5125
基于Python的機器學習
毫無懸念地,列為十大項目之首的升酣,是服務于遍布全世界從工業(yè)到學術界的Python使用者們的機器學習庫舷暮。基于NumPy, SciPy和matplotlib噩茄,ScikitLearn最大化了Python的科學計算能力下面。作為通用的工具包,ScikitLearn包含了分類绩聘、回歸和聚類算法沥割,以及數(shù)據(jù)準備和模型評估等輔助工具耗啦。
鏈接:https://github.com/scikit-learn/scikit-learn
Awesome機器學習
★ 8404, Y 1885
一系列Awsome機器學習的框架、庫和軟件的整合列表机杜。
該列表首先根據(jù)語言進行分類芹彬,然后由機器學習類別(如通用,計算機視覺叉庐,自然語言處理等等)進一步細分舒帮。它還包括了數(shù)據(jù)可視化工具,從某種意義上說陡叠,這使得它更多被視為一個通用的機器學習方法玩郊。這不失為一件好事。
鏈接:https://github.com/josephmisiti/awesome-machine-learning
PredictionIO
★ 8145, Y 1002
PredictionIO 是開發(fā)人員和ML工程師的機器學習服務器枉阵, 構建于Apache Spark, HBase 和 Spray之上译红。
PredictionIO是一個通用的框架。它包括多個服務于幾個常見任務的模塊兴溜,如可定制的分類和建議侦厚,并通過REST API或SDK與現(xiàn)有應用程序相連接,還包括對Spark MLib的支持拙徽。因為它是建立在Spark之上刨沦,并利用Spark的生態(tài)系統(tǒng),毫無懸念地膘怕,PredictionIO主要是由Scala開發(fā)而來想诅。
鏈接:https://github.com/PredictionIO/PredictionIO
Dive Into Machine Learning (潛入式機器學習)
★ 4326, Y 342
基于Jupyter notebook和ScikitLearn的交互式機器學習資源
該項目集合了服務于ScikitLearn的IPython的筆記本電腦教程和大量鏈接,指向特定的Python相關的和一般的機器學習主題岛心,以及更為廣泛的數(shù)據(jù)科學信息来破。開發(fā)者很大度,指出如果該項目不適合你忘古,他們還包括了許多其他類似的教程徘禁。如果你是Python機器學習的新手,千萬別錯過該項目髓堪。
鏈接:https://github.com/hangtwenty/dive-into-machine-learning
Pattern
★ 3799, Y 598
Python網(wǎng)絡挖掘模塊送朱,包括抓取工具、自然語言處理旦袋、機器學習骤菠、網(wǎng)絡分析及可視化。
Pattern是一個基于Python的網(wǎng)絡挖掘工具包疤孕,來自于安特衛(wèi)普大學的計算語言學和心理語言學研究中心商乎。它的主要作用是數(shù)據(jù)抓取、機器學習祭阀、自然語言處理鹉戚、網(wǎng)絡分析和可視化鲜戒。Pattern能從幾個知名的網(wǎng)絡服務器中較易地挖掘數(shù)據(jù)。該項目有很成熟的開發(fā)記錄抹凳,還包括了大量的例子和單元測試遏餐。
鏈接:https://github.com/clips/pattern
NuPIC (Numenta智能處理平臺)
★ 3647, Y 987
是一種腦力激發(fā)機器智能平臺,具有基于腦皮質(zhì)性學習算法的生物學準確性神經(jīng)網(wǎng)絡赢底。
NuPIC實現(xiàn)了分層時間內(nèi)存( Hierarchical Temporal Memory, 簡稱HTM)機器學習算法失都。HTM嘗試模擬大腦皮層算法,旨在專注于存儲和記憶時空模式幸冻。NuPIC適合于模式相關的異常檢測粹庞。
鏈接:https://github.com/numenta/nupic
Vowpal Wabbit
★ 2949, Y 827
Vowpal Wabbit是一個機器學習系統(tǒng),旨在推動機器學習技術的發(fā)展洽损,如聯(lián)網(wǎng)庞溜、散列法、歸約碑定、搜索學習2流码、主動以及相互學習。
Vowpal Wabbit的用途是迅速處理大規(guī)模數(shù)據(jù)庫集并支持并行學習延刘。該項目開始于雅虎漫试,目前在微軟研發(fā)。Vowpal Wabbit利用核外 (out-of-core) 分布式學習访娶,曾經(jīng)在一個小時內(nèi)用1000個計算節(jié)點處理terabyte級別的 特征的數(shù)據(jù)集商虐。
鏈接:https://github.com/JohnLangford/vowpal_wabbit
Aerosolve
★2538,Y 245
專為人類設計的機器學習軟件包崖疤。
aerosolve評論
試圖與其他庫管理程序不同,Aerosolve注重人性化的調(diào)試工具典勇,運用Scala代碼進行訓練劫哼,利用圖像內(nèi)容分析引擎,達到便于圖像排名的目的割笙,并通過功能轉換語言為用戶提供靈活性和控制功能权烧。 Aerosolve實現(xiàn)了基于Thrift(譯者注:Thrift 是Apache開發(fā)的多語言協(xié)作平臺)特征呈現(xiàn),在Aerosolve中伤溉,特征會按照邏輯分組般码,可以一次性地對整個特征組進行轉換,或者將兩個不同的特征簇組合到一起創(chuàng)建新的特征簇乱顾。
鏈接:http://airbnb.github.io/aerosolve/
GoLearn: 基于谷歌Go預言的機器學習項目
★2334板祝,Y 215
GoLearn是一個為谷歌Go 語言開發(fā)的程序庫。
其目標是為開發(fā)者提供一個功能全面走净、簡單易用券时、可定制的軟件包孤里。 GoLearn實現(xiàn)了ScikitLearn的許多熟悉的擬合/預測算法,可以很容易調(diào)換機器學習算法橘洞,并實現(xiàn)了交叉驗證和訓練/測試分組之類的“輔助功能”捌袜。
鏈接:https://github.com/sjwhitworth/golearn
黑客的機器學習代碼 (Machine Learning for Hackers)
★ 2003, Y 1446
“黑客的機器學習(Machine Learning for Hackers)“一書的伴隨代碼。
此項目包含來自O'Reilly的書《黑客的機器學習》的所有代碼炸枣。所有代碼均為R語言虏等,依靠眾多的R程序包,涉及主題包括分類(Classification)适肠,排行(Ranking)霍衫,以及回歸(Regression)的所有常見的任務,以及統(tǒng)計方法迂猴,如主成分分析(PCA)和多維尺度(Multi-dimenstional Scaling)等慕淡。