some resource on Machine Learning and Computer Vision
![Uploading MachineLearning3_707234.jpg . . .]
](http://upload-images.jianshu.io/upload_images/1174946-20ae791642640f68.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
C++計算機視覺
CCV
—基于C語言/提供緩存/核心的機器視覺庫,新穎的機器視覺庫
OpenCV
—它提供C++, C, Python, Java 以及 MATLAB接口授嘀,并支持Windows, Linux, Android and Mac OS操作系統(tǒng)亥鬓。
通用機器學(xué)習(xí)
MLPack
Closure 通用機器學(xué)習(xí)
Closure Toolbox
—Clojure語言庫與工具的分類目錄
Go 自然語言處理
go-porterstemmer
—一個Porter詞干提取算法的原生Go語言凈室實現(xiàn)
paicehusk
—Paice/Husk詞干提取算法的Go語言實現(xiàn)
snowball
—Go語言版的Snowball詞干提取器
通用機器學(xué)習(xí)
Go Learn
— Go語言機器學(xué)習(xí)庫
go-pr
—Go語言機器學(xué)習(xí)包.
bayesian
—Go語言樸素貝葉斯分類庫誉尖。
go-galib
—Go語言遺傳算法庫。
數(shù)據(jù)分析/數(shù)據(jù)可視化
go-graph
—Go語言圖形庫裳瘪。
SVGo
—Go語言的SVG生成庫。
Java 自然語言處理
CoreNLP
—斯坦福大學(xué)的CoreNLP提供一系列的自然語言處理工具,輸入原始英語文本这溅,可以給出單詞的基本形式(下面Stanford開頭的幾個工具都包含其中)。
Stanford Parser
—一個自然語言解析器棒仍。
Stanford POS Tagger
—一個詞性分類器悲靴。
Stanford Name Entity Recognizer
—Java實現(xiàn)的名稱識別器
Stanford Word Segmenter
—分詞器,很多NLP工作中都要用到的標準預(yù)處理步驟莫其。
Tregex, Tsurgeon and Semgrex
—用來在樹狀數(shù)據(jù)結(jié)構(gòu)中進行模式匹配癞尚,基于樹關(guān)系以及節(jié)點匹配的正則表達式(名字是“tree regular expressions”的縮寫)耸三。
Stanford Phrasal:
最新的基于統(tǒng)計短語的機器翻譯系統(tǒng),java編寫
Stanford Tokens Regex
—用以定義文本模式的框架浇揩。
Stanford Temporal Tagger
—SUTime是一個識別并標準化時間表達式的庫仪壮。
Stanford SPIED
—在種子集上使用模式,以迭代方式從無標簽文本中學(xué)習(xí)字符實體
Stanford Topic Modeling Toolbox
—為社會科學(xué)家及其他希望分析數(shù)據(jù)集的人員提供的主題建模工具胳徽。
Twitter Text Java
—Java實現(xiàn)的推特文本處理庫
MALLET
-—基于Java的統(tǒng)計自然語言處理积锅、文檔分類、聚類养盗、主題建模缚陷、信息提取以及其他機器學(xué)習(xí)文本應(yīng)用包。
OpenNLP
—處理自然語言文本的機器學(xué)習(xí)工具包往核。
LingPipe
—使用計算機語言學(xué)處理文本的工具包箫爷。
通用機器學(xué)習(xí)
MLlib in Apache Spark
—Spark中的分布式機器學(xué)習(xí)程序庫
Mahout
—分布式的機器學(xué)習(xí)庫
Stanford Classifier
—斯坦福大學(xué)的分類器
Weka
—Weka是數(shù)據(jù)挖掘方面的機器學(xué)習(xí)算法集。
ORYX
—提供一個簡單的大規(guī)模實時機器學(xué)習(xí)/預(yù)測分析基礎(chǔ)架構(gòu)铆铆。
數(shù)據(jù)分析/數(shù)據(jù)可視化
Hadoop
—大數(shù)據(jù)分析平臺
Spark
—快速通用的大規(guī)模數(shù)據(jù)處理引擎蝶缀。
Impala
—為Hadoop實現(xiàn)實時查詢
Javascript 自然語言處理
Twitter-text-js
—JavaScript實現(xiàn)的推特文本處理庫
NLP.js
—javascript及coffeescript編寫的NLP工具
natural
—Node下的通用NLP工具
Knwl.js
—JS編寫的自然語言處理器
數(shù)據(jù)分析/數(shù)據(jù)可視化
D3.js
通用機器學(xué)習(xí)
Convnet.js
—訓(xùn)練深度學(xué)習(xí)模型的JavaScript庫。
Clustering.js
—用JavaScript實現(xiàn)的聚類算法薄货,供Node.js及瀏覽器使用翁都。
Decision Trees
—Node.js實現(xiàn)的決策樹,使用ID3算法谅猾。
Node-fann
—Node.js下的快速人工神經(jīng)網(wǎng)絡(luò)庫柄慰。
Kmeans.js
—k-means算法的簡單Javascript實現(xiàn),供Node.js及瀏覽器使用税娜。
LDA.js
—供Node.js用的LDA主題建模工具坐搔。
Learning.js
—邏輯回歸/c4.5決策樹的JavaScript實現(xiàn)
Machine Learning
—Node.js的機器學(xué)習(xí)庫。
Node-SVM
—Node.js的支持向量機
Brain
—JavaScript實現(xiàn)的神經(jīng)網(wǎng)絡(luò)
Bayesian-Bandit
—貝葉斯強盜算法的實現(xiàn)敬矩,供Node.js及瀏覽器使用概行。
Julia 通用機器學(xué)習(xí)
PGM
—Julia實現(xiàn)的概率圖模型框架。
DA
—Julia實現(xiàn)的正則化判別分析包弧岳。
Regression
—回歸分析算法包(如線性回歸和邏輯回歸)凳忙。
Local Regression
—局部回歸,非常平滑禽炬!
Naive Bayes
—樸素貝葉斯的簡單Julia實現(xiàn)
Mixed Models
—(統(tǒng)計)混合效應(yīng)模型的Julia包
Simple MCMC
—Julia實現(xiàn)的基本mcmc采樣器
Distance
—Julia實現(xiàn)的距離評估模塊
Decision Tree
—決策樹分類器及回歸分析器
Neural
—Julia實現(xiàn)的神經(jīng)網(wǎng)絡(luò)
MCMC
—Julia下的MCMC工具
GLM
—Julia寫的廣義線性模型包
Online Learning
GLMNet
—GMLNet的Julia包裝版涧卵,適合套索/彈性網(wǎng)模型。
Clustering
—數(shù)據(jù)聚類的基本函數(shù):k-means, dp-means等腹尖。
SVM
—Julia下的支持向量機柳恐。
Kernal Density
—Julia下的核密度估計器
Dimensionality Reduction
—降維算法
NMF
—Julia下的非負矩陣分解包
ANN
—Julia實現(xiàn)的神經(jīng)網(wǎng)絡(luò)
自然語言處理
Topic Models
—Julia下的主題建模
Text Analysis
—Julia下的文本分析包
數(shù)據(jù)分析/數(shù)據(jù)可視化
Graph Layout
—純Julia實現(xiàn)的圖布局算法。
Data Frames Meta
—DataFrames的元編程工具。
Julia Data
—處理表格數(shù)據(jù)的Julia庫
Data Read
—從Stata乐设、SAS讼庇、SPSS讀取文件
Hypothesis Tests
—Julia中的假設(shè)檢驗包
Gladfly
—Julia編寫的靈巧的統(tǒng)計繪圖系統(tǒng)。
Stats
—Julia編寫的統(tǒng)計測試函數(shù)包
RDataSets
—讀取R語言中眾多可用的數(shù)據(jù)集的Julia函數(shù)包伤提。
DataFrames
—處理表格數(shù)據(jù)的Julia庫巫俺。
Distributions
—概率分布及相關(guān)函數(shù)的Julia包。
Data Arrays
—元素值可以為空的數(shù)據(jù)結(jié)構(gòu)肿男。
Time Series
—Julia的時間序列數(shù)據(jù)工具包介汹。
Sampling
—Julia的基本采樣算法包
雜項/演示文稿
DSP
—數(shù)字信號處理
JuliaCon Presentations
—Julia大會上的演示文稿
SignalProcessing
—Julia的信號處理工具
Images
—Julia的圖片庫
Lua 通用機器學(xué)習(xí)
Torch7
cephes
—Cephes數(shù)學(xué)函數(shù)庫,包裝成Torch可用形式舶沛。提供并包裝了超過180個特殊的數(shù)學(xué)函數(shù)嘹承,由Stephen L. Moshier開發(fā),是SciPy的核心如庭,應(yīng)用于很多場合叹卷。
graph
—供Torch使用的圖形包。
randomkit
—從Numpy提取的隨機數(shù)生成包坪它,包裝成Torch可用形式骤竹。
signal
—Torch-7可用的信號處理工具包,可進行FFT, DCT, Hilbert, cepstrums, stft等變換往毡。
nn
—Torch可用的神經(jīng)網(wǎng)絡(luò)包蒙揣。
nngraph
—為nn庫提供圖形計算能力。
nnx
—一個不穩(wěn)定實驗性的包开瞭,擴展Torch內(nèi)置的nn庫懒震。
optim
—Torch可用的優(yōu)化算法庫,包括 SGD, Adagrad, 共軛梯度算法, LBFGS, RProp等算法嗤详。
unsup
—Torch下的非監(jiān)督學(xué)習(xí)包个扰。提供的模塊與nn(LinearPsd, ConvPsd, AutoEncoder, …)及獨立算法 (k-means, PCA)等兼容。
manifold
—操作流形的包葱色。
svm
—Torch的支持向量機庫递宅。
lbfgs
—將liblbfgs包裝為FFI接口。
vowpalwabbit
—老版的vowpalwabbit對torch的接口苍狰。
OpenGM
—OpenGM是C++編寫的圖形建模及推斷庫办龄,該binding可以用Lua以簡單的方式描述圖形,然后用OpenGM優(yōu)化舞痰。
sphagetti
—MichaelMathieu為torch7編寫的稀疏線性模塊。
LuaSHKit
—將局部敏感哈希庫SHKit包裝成lua可用形式诀姚。
kernel smoothing
—KNN响牛、核權(quán)平均以及局部線性回歸平滑器
cutorch
—torch的CUDA后端實現(xiàn)
cunn
—torch的CUDA神經(jīng)網(wǎng)絡(luò)實現(xiàn)。
imgraph
—torch的圖像/圖形庫,提供從圖像創(chuàng)建圖形呀打、分割矢赁、建立樹、又轉(zhuǎn)化回圖像的例程
videograph
—torch的視頻/圖形庫贬丛,提供從視頻創(chuàng)建圖形撩银、分割、建立樹豺憔、又轉(zhuǎn)化回視頻的例程
saliency
—積分圖像的代碼和工具额获,用來從快速積分直方圖中尋找興趣點。
stitch
—使用hugin拼合圖像并將其生成視頻序列恭应。
sfm
—運動場景束調(diào)整/結(jié)構(gòu)包
fex
—torch的特征提取包抄邀,提供SIFT和dSIFT模塊。
OverFeat
—當(dāng)前最高水準的通用密度特征提取器昼榛。
演示及腳本
Core torch7 demos repository
.核心torch7演示程序庫線性回歸境肾、邏輯回歸
人臉檢測(訓(xùn)練和檢測是獨立的演示)
基于mst的斷詞器
train-a-digit-classifier
train-autoencoder
optical flow demo
train-on-housenumbers
train-on-cifar
tracking with deep nets
kinect demo
濾波可視化
saliency-networks
Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
Music Tagging
—torch7下的音樂標簽?zāi)_本
torch-datasets
讀取幾個流行的數(shù)據(jù)集的腳本,包括:BSR 500
CIFAR-10
COIL
Street View House Numbers
MNIST
NORB
Atari2600
—在Arcade Learning Environment模擬器中用靜態(tài)幀生成數(shù)據(jù)集的腳本胆屿。
Matlab 計算機視覺
Contourlets
—實現(xiàn)輪廓波變換及其使用函數(shù)的MATLAB源代碼
Shearlets
—剪切波變換的MATLAB源碼
Curvelets
—Curvelet變換的MATLAB源碼(Curvelet變換是對小波變換向更高維的推廣奥喻,用來在不同尺度角度表示圖像。)
Bandlets
—Bandlets變換的MATLAB源碼
自然語言處理NLP
—一個Matlab的NLP庫
通用機器學(xué)習(xí)Training a deep autoencoder or a classifier on MNIST digits
—在MNIST字符數(shù)據(jù)集上訓(xùn)練一個深度的autoencoder或分類器[深度學(xué)習(xí)]非迹。
t-Distributed Stochastic Neighbor Embedding
—獲獎的降維技術(shù)环鲤,特別適合于高維數(shù)據(jù)集的可視化
Spider
—Matlab機器學(xué)習(xí)的完整面向?qū)ο蟓h(huán)境。
LibSVM
—支持向量機程序庫
LibLinear
—大型線性分類程序庫
Machine Learning Module
—M. A .Girolami教授的機器學(xué)習(xí)課程彻秆,包括PDF楔绞,講義及代碼。
Caffe
—考慮了代碼清潔唇兑、可讀性及速度的深度學(xué)習(xí)框架
Pattern Recognition Toolbox
—Matlab中的模式識別工具包酒朵,完全面向?qū)ο?/p>
數(shù)據(jù)分析/數(shù)據(jù)可視化
matlab_gbl
—處理圖像的Matlab包
gamic
—圖像算法純Matlab高效實現(xiàn),對MatlabBGL的mex函數(shù)是個補充扎附。
.NET 計算機視覺
OpenCVDotNet
—包裝器蔫耽,使.NET程序能使用OpenCV代碼
Emgu CV
—跨平臺的包裝器,能在Windows, Linus, Mac OS X, iOS, 和Android上編譯留夜。
自然語言處理
Stanford.NLP for .NET
—斯坦福大學(xué)NLP包在.NET上的完全移植匙铡,還可作為NuGet包進行預(yù)編譯。
通用機器學(xué)習(xí)
Accord.MachineLearning
—支持向量機碍粥、決策樹鳖眼、樸素貝葉斯模型、K-means嚼摩、高斯混合模型和機器學(xué)習(xí)應(yīng)用的通用算法钦讳,例如:隨機抽樣一致性算法矿瘦、交叉驗證、網(wǎng)格搜索愿卒。這個包是Accord.NET框架的一部分缚去。
Vulpes
—F#語言實現(xiàn)的Deep belief和深度學(xué)習(xí)包,它在Alea.cuBase下利用CUDA GPU來執(zhí)行琼开。
Encog
—先進的神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)框架殊轴,包括用來創(chuàng)建多種網(wǎng)絡(luò)的類伦泥,也支持神經(jīng)網(wǎng)絡(luò)需要的數(shù)據(jù)規(guī)則化及處理的類造烁。它的訓(xùn)練采用多線程彈性傳播灰羽。它也能使用GPU加快處理時間。提供了圖形化界面來幫助建模和訓(xùn)練神經(jīng)網(wǎng)絡(luò)改橘。
Neural Network Designer
—這是一個數(shù)據(jù)庫管理系統(tǒng)和神經(jīng)網(wǎng)絡(luò)設(shè)計器滋尉。設(shè)計器用WPF開發(fā),也是一個UI飞主,你可以設(shè)計你的神經(jīng)網(wǎng)絡(luò)狮惜、查詢網(wǎng)絡(luò)、創(chuàng)建并配置聊天機器人碌识,它能問問題碾篡,并從你的反饋中學(xué)習(xí)。這些機器人甚至可以從網(wǎng)絡(luò)搜集信息用來輸出筏餐,或是用來學(xué)習(xí)开泽。
數(shù)據(jù)分析/數(shù)據(jù)可視化
numl
—numl這個機器學(xué)習(xí)庫,目標就是簡化預(yù)測和聚類的標準建模技術(shù)魁瞪。
Math.NET Numerics
—Math.NET項目的數(shù)值計算基礎(chǔ)穆律,著眼提供科學(xué)、工程以及日常數(shù)值計算的方法和算法导俘。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono 峦耘,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及裝有 PCL Portable Profiles 47 及 344的Windows 8, 裝有 Xamarin的Android/iOS 旅薄。
Sho
—Sho是數(shù)據(jù)分析和科學(xué)計算的交互式環(huán)境辅髓,可以讓你將腳本(IronPython語言)和編譯的代碼(.NET)無縫連接,以快速靈活的建立原型少梁。這個環(huán)境包括強大高效的庫洛口,如線性代數(shù)、數(shù)據(jù)可視化凯沪,可供任何.NET語言使用第焰,還為快速開發(fā)提供了功能豐富的交互式shell。
Python 計算機視覺
SimpleCV
—開源的計算機視覺框架妨马,可以訪問如OpenCV等高性能計算機視覺庫挺举。使用Python編寫而叼,可以在Mac、Windows以及Ubuntu上運行豹悬。
自然語言處理
NLTK
—一個領(lǐng)先的平臺,用來編寫處理人類語言數(shù)據(jù)的Python程序
Pattern
—Python可用的web挖掘模塊液荸,包括自然語言處理瞻佛、機器學(xué)習(xí)等工具。
TextBlob
—為普通自然語言處理任務(wù)提供一致的API娇钱,以NLTK和Pattern為基礎(chǔ)伤柄,并和兩者都能很好兼容。
jieba
—中文斷詞工具文搂。
SnowNLP
—中文文本處理庫适刀。
loso
—另一個中文斷詞庫。
genius
—基于條件隨機域的中文斷詞庫煤蹭。
nut
—自然語言理解工具包笔喉。
通用機器學(xué)習(xí)
Bayesian Methods for Hackers
—Python語言概率規(guī)劃的電子書
MLlib in Apache Spark
—Spark下的分布式機器學(xué)習(xí)庫。
scikit-learn
—基于SciPy的機器學(xué)習(xí)模塊
graphlab-create
—包含多種機器學(xué)習(xí)模塊的庫(回歸硝皂,聚類常挚,推薦系統(tǒng),圖分析等)稽物,基于可以磁盤存儲的DataFrame奄毡。
BigML
—連接外部服務(wù)器的庫。
pattern
—Python的web挖掘模塊
NuPIC
—Numenta公司的智能計算平臺贝或。
Pylearn2
—基于Theano的機器學(xué)習(xí)庫吼过。
hebel
—Python編寫的使用GPU加速的深度學(xué)習(xí)庫。
gensim
—主題建模工具咪奖。
PyBrain
—另一個機器學(xué)習(xí)庫盗忱。
Crab
—可擴展的、快速推薦引擎赡艰。
python-recsys
—Python實現(xiàn)的推薦系統(tǒng)售淡。
thinking bayes
—關(guān)于貝葉斯分析的書籍
Restricted Boltzmann Machines
—Python實現(xiàn)的受限波爾茲曼機。[深度學(xué)習(xí)]慷垮。
Bolt
—在線學(xué)習(xí)工具箱揖闸。
CoverTree
—cover tree的Python實現(xiàn),scipy.spatial.kdtree便捷的替代料身。
nilearn
—Python實現(xiàn)的神經(jīng)影像學(xué)機器學(xué)習(xí)庫汤纸。
Shogun
—機器學(xué)習(xí)工具箱。
Pyevolve
—遺傳算法框架芹血。
Caffe
—考慮了代碼清潔贮泞、可讀性及速度的深度學(xué)習(xí)框架
breze
—深度及遞歸神經(jīng)網(wǎng)絡(luò)的程序庫楞慈,基于Theano。
數(shù)據(jù)分析/數(shù)據(jù)可視化
SciPy
—基于Python的數(shù)學(xué)啃擦、科學(xué)囊蓝、工程開源軟件生態(tài)系統(tǒng)。
NumPy
—Python科學(xué)計算基礎(chǔ)包令蛉。
Numba
—Python的低級虛擬機JIT編譯器聚霜,Cython and NumPy的開發(fā)者編寫,供科學(xué)計算使用
NetworkX
—為復(fù)雜網(wǎng)絡(luò)使用的高效軟件珠叔。
Pandas
—這個庫提供了高性能蝎宇、易用的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)分析工具。
Open Mining
—Python中的商業(yè)智能工具(Pandas web接口)祷安。
PyMC
—MCMC采樣工具包姥芥。
zipline
—Python的算法交易庫。
PyDy
—全名Python Dynamics汇鞭,協(xié)助基于NumPy, SciPy, IPython以及 matplotlib的動態(tài)建模工作流凉唐。
SymPy
—符號數(shù)學(xué)Python庫。
statsmodels
—Python的統(tǒng)計建模及計量經(jīng)濟學(xué)庫霍骄。
astropy
—Python天文學(xué)程序庫熊榛,社區(qū)協(xié)作編寫
matplotlib
—Python的2D繪圖庫。
bokeh
—Python的交互式Web繪圖庫腕巡。
plotly
—Python and matplotlib的協(xié)作web繪圖庫玄坦。
vincent
—將Python數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為Vega可視化語法。
d3py
—Python的繪圖庫绘沉,基于D3.js煎楣。
ggplot
—和R語言里的ggplot2提供同樣的API。
Kartograph.py
—Python中渲染SVG圖的庫车伞,效果漂亮择懂。
pygal
—Python下的SVG圖表生成器。
pycascading
雜項腳本/iPython筆記/代碼庫
pattern_classification
Sarah Palin LDA
—Sarah Palin關(guān)于主題建模的電郵另玖。
Diffusion Segmentation
—基于擴散方法的圖像分割算法集合困曙。
Scipy Tutorials
—SciPy教程,已過時谦去,請查看scipy-lecture-notes
Crab
—Python的推薦引擎庫慷丽。
BayesPy
—Python中的貝葉斯推斷工具。
scikit-learn tutorials
—scikit-learn學(xué)習(xí)筆記系列
sentiment-analyzer
—推特情緒分析器
group-lasso
—坐標下降算法實驗鳄哭,應(yīng)用于(稀疏)群套索模型要糊。
mne-python-notebooks
—使用 mne-python進行EEG/MEG數(shù)據(jù)處理的IPython筆記
pandas cookbook
—使用Python pandas庫的方法書。
climin
—機器學(xué)習(xí)的優(yōu)化程序庫妆丘,用Python實現(xiàn)了梯度下降锄俄、LBFGS局劲、rmsprop、adadelta 等算法奶赠。
Kaggle競賽源代碼
wiki challange
—Kaggle上一個維基預(yù)測挑戰(zhàn)賽 Dell Zhang解法的實現(xiàn)鱼填。
kaggle insults
—Kaggle上”從社交媒體評論中檢測辱罵“競賽提交的代碼
kaggle_acquire-valued-shoppers-challenge
—Kaggle預(yù)測回頭客挑戰(zhàn)賽的代碼
kaggle-cifar
—Kaggle上CIFAR-10 競賽的代碼,使用cuda-convnet
kaggle-blackbox
—Kaggle上blackbox賽代碼毅戈,關(guān)于深度學(xué)習(xí)剔氏。
kaggle-accelerometer
—Kaggle上加速度計數(shù)據(jù)識別用戶競賽的代碼
kaggle-advertised-salaries
—Kaggle上用廣告預(yù)測工資競賽的代碼
kaggle amazon
—Kaggle上給定員工角色預(yù)測其訪問需求競賽的代碼
kaggle-bestbuy_big
—Kaggle上根據(jù)bestbuy用戶查詢預(yù)測點擊商品競賽的代碼(大數(shù)據(jù)版)
kaggle-bestbuy_small
—Kaggle上根據(jù)bestbuy用戶查詢預(yù)測點擊商品競賽的代碼(小數(shù)據(jù)版)
Kaggle Dogs vs. Cats
—Kaggle上從圖片中識別貓和狗競賽的代碼
Kaggle Galaxy Challenge
—Kaggle上遙遠星系形態(tài)分類競賽的優(yōu)勝代碼
Kaggle Gender
—Kaggle競賽:從筆跡區(qū)分性別
Kaggle Merck
—Kaggle上預(yù)測藥物分子活性競賽的代碼(默克制藥贊助)
Kaggle Stackoverflow
—Kaggle上 預(yù)測Stack Overflow網(wǎng)站問題是否會被關(guān)閉競賽的代碼
wine-quality
—預(yù)測紅酒質(zhì)量。
Ruby 自然語言處理
Treat
—文本檢索與注釋工具包竹祷,Ruby上我見過的最全面的工具包。
Ruby Linguistics
—這個框架可以用任何語言為Ruby對象構(gòu)建語言學(xué)工具羊苟。包括一個語言無關(guān)的通用前端塑陵,一個將語言代碼映射到語言名的模塊,和一個含有很有英文語言工具的模塊蜡励。
Stemmer
—使得Ruby可用 libstemmer_c中的接口令花。
Ruby Wordnet
—WordNet的Ruby接口庫。
Raspel
—aspell綁定到Ruby的接口
UEA Stemmer
—UEALite Stemmer的Ruby移植版凉倚,供搜索和檢索用的保守的詞干分析器
Twitter-text-rb
—該程序庫可以將推特中的用戶名兼都、列表和話題標簽自動連接并提取出來。
通用機器學(xué)習(xí)
Ruby Machine Learning
—Ruby實現(xiàn)的一些機器學(xué)習(xí)算法稽寒。
Machine Learning Ruby
jRuby Mahout
—精華扮碧!在JRuby世界中釋放了Apache Mahout的威力。
CardMagic-Classifier
—可用貝葉斯及其他分類法的通用分類器模塊杏糙。
Neural Networks and Deep Learning
—《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)》一書的示例代碼慎王。
數(shù)據(jù)分析/數(shù)據(jù)可視化
rsruby
– Ruby – R bridge
data-visualization-ruby
—關(guān)于數(shù)據(jù)可視化的Ruby Manor演示的源代碼和支持內(nèi)容
ruby-plot
—將gnuplot包裝為Ruby形式,特別適合將ROC曲線轉(zhuǎn)化為svg文件宏侍。
plot-rb
—基于Vega和D3的ruby繪圖庫
scruffy
—Ruby下出色的圖形工具包
SciRuby
Glean
—數(shù)據(jù)管理工具
Bioruby
Misc雜項
Big Data For Chimps
—大數(shù)據(jù)處理嚴肅而有趣的指南書
R 通用機器學(xué)習(xí)
Clever Algorithms For Machine Learning
Machine Learning Task View on CRAN
—R語言機器學(xué)習(xí)包列表赖淤,按算法類型分組。
caret
—R語言150個機器學(xué)習(xí)算法的統(tǒng)一接口
SuperLearner
andsubsemble
—該包集合了多種機器學(xué)習(xí)算法
Introduction to Statistical Learning
數(shù)據(jù)分析/數(shù)據(jù)可視化
Learning Statistics Using R
ggplot2
—基于圖形語法的數(shù)據(jù)可視化包谅河。
Scala 自然語言處理
ScalaNLP
—機器學(xué)習(xí)和數(shù)值計算庫的套裝
Breeze
—Scala用的數(shù)值處理庫
Chalk
—自然語言處理庫咱旱。
FACTORIE
—可部署的概率建模工具包,用Scala實現(xiàn)的軟件庫绷耍。為用戶提供簡潔的語言來創(chuàng)建關(guān)系因素圖吐限,評估參數(shù)并進行推斷。
數(shù)據(jù)分析/數(shù)據(jù)可視化
MLlib in Apache Spark
—Spark下的分布式機器學(xué)習(xí)庫
Scalding
—CAscading的Scala接口
Summing Bird
—用Scalding 和 Storm進行Streaming MapReduce
Algebird
—Scala的抽象代數(shù)工具
xerial
—Scala的數(shù)據(jù)管理工具
simmer
—化簡你的數(shù)據(jù)褂始,進行代數(shù)聚合的unix過濾器
PredictionIO
—供軟件開發(fā)者和數(shù)據(jù)工程師用的機器學(xué)習(xí)服務(wù)器毯盈。
BIDMat
—支持大規(guī)模探索性數(shù)據(jù)分析的CPU和GPU加速矩陣庫。
通用機器學(xué)習(xí)
Conjecture
—Scalding下可擴展的機器學(xué)習(xí)框架
brushfire
—scalding下的決策樹工具病袄。
[ganitha](https://github.com
—基于scalding的機器學(xué)習(xí)程序庫
adam
—使用Apache Avro, Apache Spark 和 Parquet的基因組處理引擎搂赋,有專用的文件格式赘阀,Apache 2軟件許可。
bioscala
—Scala語言可用的生物信息學(xué)程序庫
BIDMach
—機器學(xué)習(xí)CPU和GPU加速庫脑奠。
分享自AboutYun