摘要:機(jī)器學(xué)習(xí)牽涉的編程語(yǔ)言十分之廣顷啼,包括了MATLAB、Python昌屉、Clojure钙蒙、Ruby等等。為了讓開(kāi)發(fā)者更加廣泛间驮、深入地了解機(jī)器學(xué)習(xí)躬厌,云棲社區(qū)組織翻譯了GitHub Awesome Machine Learning 資源,涵蓋24種編程語(yǔ)言的機(jī)器學(xué)習(xí)的框架竞帽、庫(kù)以及其他相關(guān)資料扛施。
摘要:機(jī)器學(xué)習(xí)牽涉的編程語(yǔ)言十分之廣,包括了MATLAB屹篓、Python疙渣、Clojure、Ruby等等堆巧。為了讓開(kāi)發(fā)者更加廣泛妄荔、深入地了解機(jī)器學(xué)習(xí)泼菌,云棲社區(qū)組織翻譯了GitHub Awesome Machine Learning 資源,涵蓋24種編程語(yǔ)言的機(jī)器學(xué)習(xí)的框架啦租、庫(kù)以及其他相關(guān)資料哗伯。
機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論篷角、統(tǒng)計(jì)學(xué)焊刹、逼近論、凸分析内地、算法復(fù)雜度理論等多門學(xué)科伴澄。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能阱缓,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能非凌。機(jī)器學(xué)習(xí)牽涉的編程語(yǔ)言十分之廣,包括了MATLAB荆针、Julia敞嗡、R、Perl航背、Python喉悴、Clojure、Ruby等等玖媚。
為了讓開(kāi)發(fā)者更加廣泛箕肃、深入地了解機(jī)器學(xué)習(xí),云棲社區(qū)組織翻譯了GitHub Awesome Machine Learning 資源今魔,涵蓋24種編程語(yǔ)言的機(jī)器學(xué)習(xí)的框架勺像、庫(kù)以及其他相關(guān)資料。
目錄
數(shù)據(jù)分析 / 數(shù)據(jù)可視化
雜項(xiàng)腳本/ iPython筆記 /源碼庫(kù)
C
通用機(jī)器學(xué)習(xí)
Recommender-?一個(gè)C語(yǔ)言庫(kù)错森,利用協(xié)同過(guò)濾(CF)進(jìn)行產(chǎn)品推薦/建議吟宦;
Darknet-是一個(gè)用C和CUDA編寫(xiě)的開(kāi)源神經(jīng)網(wǎng)絡(luò)框架,它速度快涩维,易于安裝殃姓,并支持CPU和GPU計(jì)算。
計(jì)算機(jī)視覺(jué)
CCV-基于C語(yǔ)言瓦阐、高速緩存的核計(jì)算機(jī)視覺(jué)庫(kù)蜗侈,是一個(gè)現(xiàn)代化的計(jì)算機(jī)視覺(jué)庫(kù);
VLFeat-開(kāi)放睡蟋、可便攜的計(jì)算機(jī)視覺(jué)算法庫(kù)宛篇,內(nèi)有matlab工具箱。
語(yǔ)音識(shí)別
HTK-隱馬爾可夫模型工具包(HTK)是一個(gè)便攜式工具包薄湿,用于構(gòu)建和操作隱馬爾可夫模型。
C++
計(jì)算機(jī)視覺(jué)
OpenCV-OpenCV自帶C ++、C豺瘤、Python吆倦、Java和MATLAB接口,并支持Windows坐求、Linux蚕泽、Android版和Mac OS等系統(tǒng);
DLib-DLib有C ++和Python接口桥嗤,用于人臉檢測(cè)和訓(xùn)練通用的目標(biāo)探測(cè)器须妻;
EBLearn-Eblearn是一種面向?qū)ο蟮腃++庫(kù),能夠?qū)崿F(xiàn)各種機(jī)器學(xué)習(xí)模型泛领;
VIGRA-VIGRA是通用跨平臺(tái)的C++計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)庫(kù)荒吏,能夠用Python綁定任意維度的體積。
通用機(jī)器學(xué)習(xí)
mlpack-可擴(kuò)展的C++機(jī)器學(xué)習(xí)庫(kù)渊鞋;
DLib-ML工具套件绰更,能夠很容易嵌入到其他應(yīng)用程序中;
Vowpal Wabbit (VW)-一個(gè)快速的核外(out-of-core?)學(xué)習(xí)系統(tǒng)锡宋;
sofia-ml-快速增量算法套件儡湾;
Shogun-Shogun機(jī)器學(xué)習(xí)工具箱;
Caffe-基于清潔度执俩、可讀性和速度考慮而開(kāi)發(fā)的深度學(xué)習(xí)框架徐钠。[深度學(xué)習(xí)]
CXXNET-另一個(gè)深度學(xué)習(xí)框架,其核心代碼少于1000行役首;[深度學(xué)習(xí)]
XGBoost-一種并行尝丐、優(yōu)化、通用的梯度推進(jìn)庫(kù)宋税;
CUDA-利用C++ / CUDA快速實(shí)現(xiàn)卷積摊崭;[深度學(xué)習(xí)]
Stan-一種概率性的編程語(yǔ)言,能夠?qū)崿F(xiàn)Hamiltonian Monte Carlo抽樣的全貝葉斯統(tǒng)計(jì)推斷杰赛;
BanditLib-一個(gè)簡(jiǎn)單呢簸、有多重保護(hù)的Bandit庫(kù);
Timbl:一個(gè)軟件包/ C ++庫(kù)乏屯,能夠?qū)崿F(xiàn)多種基于內(nèi)存的學(xué)習(xí)算法根时,其中有IB1-IG--k-最近鄰分類的實(shí)現(xiàn)、IGTree--IB1-IG的決策樹(shù)近似值辰晕;常用于NLP蛤迎;
Disrtibuted Machine learning Tool Kit (DMTK)-微軟開(kāi)發(fā)的分布式機(jī)器學(xué)習(xí)(參數(shù)服務(wù)器)框架,能夠在多臺(tái)機(jī)器的大型數(shù)據(jù)集上實(shí)現(xiàn)訓(xùn)練模型含友,與它捆綁的現(xiàn)有工具包括:LightLDA和分布式(多傳感)字嵌入替裆;
igraph-通用圖形庫(kù)校辩;
Warp-CTC-在CPU和GPU上快速并行地實(shí)現(xiàn)連接時(shí)域分類(Connectionist Temporal Classification,CTC)辆童;
CNTK-微軟研究院開(kāi)發(fā)的計(jì)算網(wǎng)絡(luò)工具包(CNTK)宜咒,它作為一系列計(jì)算步驟,通過(guò)有向圖來(lái)描述神經(jīng)網(wǎng)絡(luò)把鉴,是統(tǒng)一的深度學(xué)習(xí)工具包故黑;
DeepDetect-一個(gè)機(jī)器學(xué)習(xí)API,服務(wù)器用C++11編寫(xiě)庭砍,它使機(jī)器學(xué)習(xí)的狀態(tài)易于工作场晶,并容易集成到現(xiàn)有應(yīng)用程序;
Fido-一個(gè)高度模塊化的C++機(jī)器學(xué)習(xí)庫(kù)怠缸,用于嵌入式電子產(chǎn)品和機(jī)器人中诗轻。
MIT Information Extraction Toolkit-C,C ++和Python的工具凯旭,用于命名實(shí)體識(shí)別與關(guān)系抽雀懦堋;
CRF++-條件隨機(jī)域(Conditional Random Fields罐呼,CRFs)的開(kāi)源實(shí)現(xiàn)鞠柄,用于分割/標(biāo)記序列數(shù)據(jù)及其他自然語(yǔ)言處理任務(wù);
CRFsuite-條件隨機(jī)域(CRFs)的實(shí)現(xiàn)嫉柴,用于標(biāo)記序列數(shù)據(jù)厌杜;
BLLIP Parser-BLLIP自然語(yǔ)言解析器(也稱為Charniak-Johnson解析器);
colibri-core-是C++庫(kù)计螺、命令行工具夯尽,和Python綁定用于提取與使用基本的語(yǔ)言結(jié)構(gòu),例如用快速和高效存儲(chǔ)的方式實(shí)現(xiàn)n-grams和skipgrams模型登馒;
ucto-是一種工具和C++庫(kù)匙握,基于支持各種語(yǔ)言的編譯器,內(nèi)含統(tǒng)一字符標(biāo)準(zhǔn)及規(guī)則表達(dá)式陈轿;支持FoLiA格式圈纺;
libfolia-支持FoLiA格式的C++庫(kù);
frog-為Dutch開(kāi)發(fā)的基于內(nèi)存的NLP套件:POS標(biāo)簽麦射、歸類分析蛾娶、依存句法分析、NER潜秋、淺層句法分析蛔琅、形態(tài)分析;
MeTA-MeTA : ModErn語(yǔ)篇分析(ModErn Text Analysis)峻呛,是一個(gè)C++數(shù)據(jù)科學(xué)工具包罗售,便于挖掘大文本數(shù)據(jù)辜窑。
語(yǔ)音識(shí)別
Kaldi-Kaldi是用于語(yǔ)音識(shí)別的工具包,用C++編寫(xiě)莽囤,由Apache許可證V2.0協(xié)議授權(quán)谬擦,專門給語(yǔ)音識(shí)別的研究人員使用。
序列分析
ToPS-這是一種面向?qū)ο蟮目蚣苄喽校阌谠谟脩舳x的字母序列中整合概率模型。
手勢(shì)檢測(cè)
grt-手勢(shì)識(shí)別工具包(GRT)是一個(gè)跨平臺(tái)谜悟、開(kāi)源的C++機(jī)器學(xué)習(xí)庫(kù)话肖,用于實(shí)時(shí)的手勢(shì)識(shí)別。
Common Lisp
通用機(jī)器學(xué)習(xí)
mgl-神經(jīng)網(wǎng)絡(luò)(玻耳茲曼機(jī)葡幸,前饋和循環(huán)網(wǎng)絡(luò))以及高斯過(guò)程最筒;
mgl-gpr-演化算法;
cl-libsvm-LIBSVM支持向量機(jī)庫(kù)的包裝蔚叨。
Clojure
自然語(yǔ)言處理
Clojure-openNLP- Clojure中自然語(yǔ)言處理的工具包(openNLP)床蜘;
Infections-clj- Clojure和Clojure中類似于Rails的inflection庫(kù)。
通用機(jī)器學(xué)習(xí)
Touchstone- Clojure A/B 測(cè)試庫(kù)蔑水;
Clojush- Clojure中的Push程序語(yǔ)言和PushGP遺傳編程系統(tǒng)邢锯;
Infer- Clojure中分析和機(jī)器學(xué)習(xí)的工具;
Clj-ML- Clojure中基于Weka及其相關(guān)環(huán)境的深度學(xué)習(xí)庫(kù)搀别;
Encog- 在Clojure中封裝成Encog (v3) (專門研究神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)框架)丹擎;
Fungp- ?Clojure中的遺傳編程實(shí)例庫(kù);
Statistiker- Clojure中基礎(chǔ)機(jī)器學(xué)習(xí)算法歇父;
clortex-采用Numenta’s Cortical?學(xué)習(xí)算法的通用機(jī)器學(xué)習(xí)庫(kù)蒂培;
comportex-?采用Numenta’s Cortical?學(xué)習(xí)算法的功能組合的機(jī)器學(xué)習(xí)庫(kù)。
數(shù)據(jù)分析/數(shù)據(jù)可視化
Incanter- Incanter是基于?Clojure榜苫,類似R的統(tǒng)計(jì)計(jì)算與制圖平臺(tái)护戳;
PigPen- ?Clojure中的Map-Reduce;
Envision-?基于Statistiker和D3Clojure 數(shù)據(jù)可視化庫(kù)垂睬。
Erlang
通用機(jī)器學(xué)習(xí)
Disco- ?Erlang中的Map Reduce模型媳荒。
Go
自然語(yǔ)言處理
go-porterstemmer- 一個(gè)用于實(shí)現(xiàn)Porter詞干提取算法的原生Go語(yǔ)言凈室;
paicehusk- Go語(yǔ)言中用于實(shí)現(xiàn)Paice/Husk詞干提取算法羔飞;
snowball- Go語(yǔ)言中的Snowball 詞干提取器肺樟;
go-ngram-內(nèi)存N-gram索引壓縮?。
通用機(jī)器學(xué)習(xí)
Go Learn- Go語(yǔ)言中的機(jī)器學(xué)習(xí)庫(kù)逻淌;
go-pr- Go語(yǔ)言中的模式識(shí)別包么伯;
go-ml- 線性/邏輯回歸、神經(jīng)網(wǎng)絡(luò)卡儒、協(xié)同過(guò)濾和多元高斯分布田柔;
bayesian- Go語(yǔ)言中樸素貝葉斯分類庫(kù)俐巴;
go-galib-?Go語(yǔ)言版的遺傳算法庫(kù);
Cloudforest- GO語(yǔ)言中的決策樹(shù)集合硬爆;
gobrain- GO語(yǔ)言版的神經(jīng)網(wǎng)絡(luò)欣舵;
GoNN- GoNN?是用Go語(yǔ)言實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò),它包括BPNN缀磕、RBF缘圈、PCN?;
MXNet- 輕量級(jí)袜蚕、便攜式糟把、靈活的分布式/深度學(xué)習(xí)系統(tǒng),可對(duì)動(dòng)態(tài)的牲剃、突變數(shù)據(jù)流調(diào)度部署遣疯,同時(shí)也支持Python、R凿傅、Julia缠犀、Go、Javascript 等編程語(yǔ)言聪舒。
數(shù)據(jù)分析/數(shù)據(jù)可視化
go-graph- Go語(yǔ)言圖形庫(kù)辨液;
SVGo- Go語(yǔ)言的SVG生成庫(kù);
RF- Go語(yǔ)言的隨機(jī)森林庫(kù)过椎;
Haskell
通用機(jī)器學(xué)習(xí)
haskell-ml- Haskell?語(yǔ)言實(shí)現(xiàn)的各種深度學(xué)習(xí)算法?室梅;
HLearn- 根據(jù)代數(shù)結(jié)構(gòu)解釋其深度模型的庫(kù);
hnn- Haskell語(yǔ)言的神經(jīng)網(wǎng)絡(luò)庫(kù)疚宇;
hopfield-networks- Haskell中用于無(wú)監(jiān)督學(xué)習(xí)的Hopfield網(wǎng)絡(luò)亡鼠;
caffegraph- 一種用于深度神經(jīng)網(wǎng)絡(luò)的領(lǐng)域特定語(yǔ)言(DSL);
LambdaNet- Haskell中的可配置的神經(jīng)網(wǎng)絡(luò)敷待。
Java
自然語(yǔ)言處理
Cortical.io- 像人腦一樣快速间涵、精確處理復(fù)雜的NLP(自然語(yǔ)言處理)操作(如消歧、分類榜揖、流文本過(guò)濾等操作)的Retina API勾哩;
CoreNLP- 斯坦福大學(xué)的CoreNLP提供的一系列的自然語(yǔ)言處理工具,該工具可以根據(jù)輸入原始英語(yǔ)文本举哟,給出單詞的基本形式思劳;
Stanford Parser- 一種自然語(yǔ)言分析器,可以分析語(yǔ)句的語(yǔ)法結(jié)構(gòu)妨猩;
Stanford POS Tagger-一個(gè)詞性分類器??(POS Tagger)潜叛;
Stanford Name Entity Recognizer- Stanford NER是一個(gè)Java實(shí)現(xiàn)的名稱識(shí)別器;
Stanford Word Segmenter- 分詞器,很多NLP工作中都要用到的標(biāo)準(zhǔn)預(yù)處理步驟威兜;
Tregex, Tsurgeon and Semgrex- Tregex基于樹(shù)關(guān)系以及節(jié)點(diǎn)匹配的正則表達(dá)式销斟,用于在樹(shù)狀數(shù)據(jù)結(jié)構(gòu)中進(jìn)行模式匹配(名字是“tree regular expressions”的縮寫(xiě))?;
Stanford Phrasal:一個(gè)基于短語(yǔ)的翻譯系統(tǒng)
Stanford English Tokenizer-?Stanford Phrasal 用Java寫(xiě)成的最新的基于統(tǒng)計(jì)短語(yǔ)的機(jī)器翻譯系統(tǒng)椒舵;
Stanford Tokens Regex- 一個(gè)分解器蚂踊,可以將文本大致分成一系列對(duì)應(yīng)于“詞”的符號(hào);
Stanford Temporal Tagger-?SUTime是一個(gè)用于識(shí)別并標(biāo)準(zhǔn)化時(shí)間表達(dá)式的庫(kù)笔宿;
Stanford SPIED-在種子集上使用模式犁钟,以迭代方式從無(wú)標(biāo)簽文本中進(jìn)行學(xué)習(xí)實(shí)體;
Stanford Topic Modeling Toolbox- 為社會(huì)科學(xué)家及其他希望分析數(shù)據(jù)集的人員提供的主題建模工具措伐;
Twitter Text Java-?Java實(shí)現(xiàn)的推特文本處理庫(kù)特纤;
MALLET-?基于Java的統(tǒng)計(jì)自然語(yǔ)言處理、文檔分類侥加、聚類、主題建模练链、信息提取以及其他機(jī)器學(xué)習(xí)的文本應(yīng)用包白粉;
OpenNLP- 基于機(jī)器學(xué)習(xí)的自然語(yǔ)言文本處理工具包支鸡;
LingPipe- 一個(gè)使用計(jì)算機(jī)語(yǔ)言學(xué)文本處理的工具包;
ClearTK- 在Java中ClearTK為開(kāi)發(fā)統(tǒng)計(jì)語(yǔ)言處理組件提供了一個(gè)框架提前,該框架是基于Apache UIMA;
Apache cTAKES- Apache cTAKES是一個(gè)開(kāi)源自然語(yǔ)言處理系統(tǒng)泳唠,用于從臨床電子病歷的自由文本中提取信息狈网;
ClearNLP- ClearNLP工程為自然語(yǔ)言處理提供了軟件和資源提供了。該項(xiàng)目最早在計(jì)算機(jī)愈合和教育研究中心啟動(dòng)笨腥,目前由Emory 大學(xué)的語(yǔ)言和信息研究中心繼續(xù)開(kāi)發(fā)拓哺。該項(xiàng)目遵循Apache 2?license。
通用機(jī)器學(xué)習(xí)
aerosolve- 是由Airbnb設(shè)計(jì)的定價(jià)建議系統(tǒng)的機(jī)器學(xué)習(xí)庫(kù)脖母;
Datumbox-應(yīng)對(duì)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)應(yīng)用快速發(fā)展的機(jī)器學(xué)習(xí)框架士鸥;
ELKI- 用于數(shù)據(jù)挖掘的Java工具包(無(wú)監(jiān)督:聚類、異常檢測(cè)等等)谆级;
Encog- 一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)框架烤礁。?Encog包含用于創(chuàng)建各類網(wǎng)絡(luò)的類,同時(shí)也支持為神經(jīng)網(wǎng)絡(luò)規(guī)范和處理數(shù)據(jù)的類肥照。它的訓(xùn)練采用多線程彈性傳播脚仔。它也能使用GPU加快處理時(shí)間。提供了圖形化界面來(lái)幫助建模和訓(xùn)練神經(jīng)網(wǎng)絡(luò)舆绎。
EvA2- 包含遺傳算法鲤脏、差分進(jìn)化、協(xié)方差自適應(yīng)進(jìn)化策略等等的進(jìn)化算法框架亿蒸;
FlinkML in Apache Flink- Flink中的分布式機(jī)器學(xué)習(xí)庫(kù)凑兰;
H2O- 深度學(xué)習(xí)引擎掌桩,支持在Hadoop、Spark 或者通過(guò)R姑食、Python波岛、Scala 、REST/JSONML?的APIs連到的筆記本上進(jìn)行分布式學(xué)習(xí)音半;
htm.java- 采用Numenta?Cortical 學(xué)習(xí)算法的通用機(jī)器學(xué)習(xí)庫(kù) 则拷;
java-deeplearning- Java、Clojure曹鸠、Scala的分布式深度學(xué)習(xí)平臺(tái)煌茬;
JAVA-ML- 包含所有Java算法的通用接口的通用深度學(xué)習(xí)庫(kù);
JSAT- 用于分類彻桃、回歸坛善、聚類的機(jī)器學(xué)習(xí)算法集合;
Mahout- 分布式的機(jī)器學(xué)習(xí)庫(kù)邻眷;
Meka- MEKA提供了一個(gè)面向多標(biāo)簽學(xué)習(xí)和評(píng)價(jià)方法的開(kāi)源實(shí)現(xiàn)(擴(kuò)展成Weka)眠屎;
MLlib in Apache Spark- Spark中的分布式機(jī)器學(xué)習(xí)程序庫(kù);
Neuroph- Neuroph 是輕量級(jí)的Java神經(jīng)網(wǎng)絡(luò)框架肆饶;
ORYX- 采用Apache Spark和Apache Kafka的Lambda 結(jié)構(gòu)框架改衩,專門用于實(shí)時(shí)大規(guī)模機(jī)器學(xué)習(xí);
Samoa- SAMOA 是一個(gè)包含用于分布式機(jī)器學(xué)習(xí)數(shù)據(jù)流的框架驯镊,同時(shí)為數(shù)據(jù)流流入不同的流處理平臺(tái)提供了接口葫督;
RankLib- RankLib是一個(gè)排序?qū)W習(xí)算法庫(kù);
rapaio- Java中用于統(tǒng)計(jì)板惑、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的工具箱橄镜;
RapidMiner- RapidMiner integration into Java code
Stanford Classifier- 斯坦福大學(xué)分類器是一種機(jī)器學(xué)習(xí)工具,它可以將數(shù)據(jù)項(xiàng)歸置不同的類別中洒放;
SmileMiner- 統(tǒng)計(jì)機(jī)器智能與學(xué)習(xí)引擎蛉鹿;
SystemML- 靈活、可擴(kuò)展的機(jī)器學(xué)習(xí)語(yǔ)言往湿;
WalnutiQ- 人腦部分面向?qū)ο竽P停?/p>
Weka-?Weka是數(shù)據(jù)挖掘方面的機(jī)器學(xué)習(xí)算法集?妖异。
語(yǔ)音識(shí)別
CMU Sphinx- CMU Sphinx?是基于Java 語(yǔ)音識(shí)別庫(kù),用于純語(yǔ)音識(shí)別開(kāi)源工具包领追。
數(shù)據(jù)分析/數(shù)據(jù)可視化
Flink- Apache Flink是一個(gè)面向分布式數(shù)據(jù)流處理和批量數(shù)據(jù)處理的開(kāi)源計(jì)算平臺(tái)他膳;
Hadoop- 大數(shù)據(jù)分析平臺(tái);
Spark- Spark是一個(gè)快速通用的大規(guī)模數(shù)據(jù)處理引擎绒窑;
Storm- Storm是一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng)棕孙;
Impala- 為Hadoop實(shí)現(xiàn)實(shí)時(shí)查詢
DataMelt- 用于數(shù)字計(jì)算、統(tǒng)計(jì)、符號(hào)計(jì)算蟀俊、數(shù)據(jù)分析和數(shù)據(jù)可視化的數(shù)學(xué)軟件钦铺;
Dr. Michael Thomas Flanagan's Java Scientific Library
深度學(xué)習(xí)
Deeplearning4j- 采用并行GPU的商用可擴(kuò)展深度學(xué)習(xí)庫(kù)。
數(shù)Javascript
自然語(yǔ)言處理
Twitter-text- Twitter文本處理庫(kù)中使用JavaScript的實(shí)現(xiàn)肢预;
NLP.js–?使用JavaScript和CoffeeScript的NLP實(shí)用工具矛洞;
natural–?用于節(jié)點(diǎn)的通用自然語(yǔ)言工具;
Knwl.js–?JS中的自然語(yǔ)言處理器烫映;
Retext-用于分析和處理自然語(yǔ)言的可擴(kuò)展系統(tǒng)沼本;
TextProcessing-情感分析,詞干和詞形還原锭沟,部分詞性標(biāo)注和組塊抽兆,短語(yǔ)提取和命名實(shí)體識(shí)別;
NLP Compromise- 瀏覽器中的自然語(yǔ)言處理族淮。
數(shù)據(jù)分析/數(shù)據(jù)可視化
D3xter–直接建立在D3上的繪圖辫红;
statkit–?JavaScript的統(tǒng)計(jì)工具;
datakit- JavaScript的輕量級(jí)數(shù)據(jù)分析框架祝辣;
science.js- JavaScript中的科學(xué)統(tǒng)計(jì)計(jì)算厉熟;
Z3d–?在Three.js上輕松地繪制交互式3D圖;
Sigma.js- JavaScript庫(kù)较幌,專門用于圖形繪制;
C3.js–?基于D3.js的定制庫(kù)白翻,能夠輕松繪制圖表乍炉;
ZingChart- Vanilla JS編寫(xiě)的庫(kù),用于大數(shù)據(jù)可視化滤馍;
cheminfo–?數(shù)據(jù)可視化和分析的平臺(tái)岛琼,使用可視化項(xiàng)目。
通用機(jī)器學(xué)習(xí)
Convnet.js- ConvNetJS是一個(gè)JavaScript庫(kù)巢株,用于訓(xùn)練深度學(xué)習(xí)模型[深度學(xué)習(xí)]槐瑞;
Clusterfck- 為Node.js和瀏覽器,用Javascript實(shí)現(xiàn)的凝聚層次聚類阁苞;
Clustering.js–?Javascript為Node.js和瀏覽器實(shí)現(xiàn)的聚類算法困檩;
Decision Trees-使用ID3算法實(shí)現(xiàn)NodeJS決策樹(shù);
figue- K-均值那槽、模糊C均值和凝聚聚類悼沿;
Node-fann-Node.js綁定的快速人工神經(jīng)網(wǎng)絡(luò)庫(kù)(Fast Artificial Neural Network Library,F(xiàn)ANN)骚灸;
Kmeans.js- K-均值算法用JavaScript的簡(jiǎn)單實(shí)現(xiàn)糟趾,用于Node.js和瀏覽器;
LDA.js-?Node.js的LDA主題建模;
Learning.js–用Javascript實(shí)現(xiàn)邏輯回歸/ c4.5決策樹(shù)义郑;
Machine Learning-?Node.js的機(jī)器學(xué)習(xí)庫(kù)蝶柿;
Node-SVM-?Node.js的支持向量機(jī);
Brain-?JavaScript中的神經(jīng)網(wǎng)絡(luò)[已棄用]非驮;
Bayesian-Bandit-?Node和瀏覽器的貝葉斯實(shí)現(xiàn)交汤;
Synaptic–?用于Node.js和瀏覽器的無(wú)架構(gòu)神經(jīng)網(wǎng)絡(luò)庫(kù);
kNear-?JavaScript實(shí)現(xiàn)的k個(gè)最近鄰算法院尔,用于監(jiān)督學(xué)習(xí)蜻展;
NeuralN-?Node.js的C++神經(jīng)網(wǎng)絡(luò)庫(kù),其優(yōu)點(diǎn)是有大量的數(shù)據(jù)集和多線程訓(xùn)練邀摆;
kalman-?Javascript的卡爾曼濾波器纵顾;
shaman-?Node.js庫(kù),同時(shí)支持簡(jiǎn)單和多元的線性回歸栋盹;
ml.js–用于Node.js和瀏覽器的機(jī)器學(xué)習(xí)和數(shù)值分析工具施逾;
Pavlov.js-利用馬爾可夫決策過(guò)程強(qiáng)化學(xué)習(xí);
MXNet-輕量級(jí)例获、便攜式汉额、靈活的分布式/深度學(xué)習(xí)系統(tǒng),可對(duì)動(dòng)態(tài)的榨汤、突變數(shù)據(jù)流調(diào)度部署蠕搜,同時(shí)也支持Python、R收壕、Julia妓灌、Go、Javascript 等編程語(yǔ)言蜜宪。
其它
sylvester–?用于JavaScript的向量和矩陣數(shù)學(xué)虫埂;
simple-statistics-?描述,回歸和推斷統(tǒng)計(jì)的JavaScript實(shí)現(xiàn)圃验;用文字實(shí)現(xiàn)的JavaScript掉伏,沒(méi)有依賴性,能在所有現(xiàn)代瀏覽器(包括IE)以及在node.js中工作澳窑;
regression-js–?JavaScript庫(kù)斧散,包含小二乘法擬合方法的集合,用于尋找數(shù)據(jù)集的趨勢(shì)照捡;
Lyric-線性回歸庫(kù)颅湘;
GreatCircle–?計(jì)算大圓距的庫(kù)。
Julia
通用機(jī)器學(xué)習(xí)
MachineLearning-?Julia機(jī)器學(xué)習(xí)庫(kù)栗精;
MLBase-一組支持機(jī)器學(xué)習(xí)算法的發(fā)展的函數(shù)闯参;
PGM-?一個(gè)概率圖模型的Julia框架瞻鹏;
DA-?正則判別分析的Julia組件;
Regression-?回歸分析算法(例如線性回歸和邏輯回歸)鹿寨;
Local Regression-局部回歸新博,超級(jí)流暢!
Naive Bayes-?Julia樸素貝葉斯方法的簡(jiǎn)單實(shí)現(xiàn)脚草;
Mixed Models–?用于裝配(統(tǒng)計(jì))混合效應(yīng)模型的Julia組件赫悄;
Simple MCMC–?Julia實(shí)現(xiàn)基本的MCMC采樣;
Distance-?Julia距離評(píng)估模塊馏慨;
Decision Tree-決策樹(shù)分類和回歸埂淮;
Neural-?Julia神經(jīng)網(wǎng)絡(luò);
MCMC–?Julia?的MCMC工具写隶;
Mamba–?Julia中馬爾可夫鏈蒙特卡羅(MCMC)的貝葉斯分析倔撞;
GLM–?Julia的廣義線性模型。
GLMNet–?GMLNet的Julia包裝版慕趴,適合套索/彈性網(wǎng)模型痪蝇;
Clustering-集群數(shù)據(jù)的基本功能:K-均值,DP-均值等冕房;
SVM–?Julia適用的SVM躏啰;
Kernal Density–?Julia的核密度估計(jì)量;
Dimensionality Reduction-降維方法耙册;
NMF-?非負(fù)矩陣分解的Julia包给僵;
ANN-?Julia人工神經(jīng)網(wǎng)絡(luò);
Mocha–?受Caffe啟發(fā)详拙,Julia的深度學(xué)習(xí)框架想际;
XGBoost–?Julia中的eXtreme Gradient Boosting 包;
ManifoldLearning–?用于流形學(xué)習(xí)和非線性降維的Julia組件溪厘;
MXNet-輕量級(jí)、便攜式牌柄、靈活的分布式/深度學(xué)習(xí)系統(tǒng)畸悬,可對(duì)動(dòng)態(tài)的、突變數(shù)據(jù)流調(diào)度部署珊佣,同時(shí)也支持Python蹋宦、R、Julia咒锻、Go冷冗、Javascript 等編程語(yǔ)言。
Merlin-?Julia靈活的深度學(xué)習(xí)框架惑艇。
自然語(yǔ)言處理
Topic Models–?Julia下的主題模型蒿辙;
Text Analysis–?Julia下的文本分析包拇泛。
數(shù)據(jù)分析/數(shù)據(jù)可視化
Graph Layout–?純Julia實(shí)現(xiàn)的圖布局算法;
Data Frames Meta-?DataFrames的元編程工具思灌;
Julia Data-?處理表格數(shù)據(jù)的Julia庫(kù)俺叭;
Data Read-?從Stata、SAS泰偿、SPSS讀取文件熄守;
Hypothesis Tests–?Julia的假設(shè)檢驗(yàn);
Gadfly–?Julia?靈活的統(tǒng)計(jì)制圖法耗跛;
Stats–?Julia的統(tǒng)計(jì)圖檢驗(yàn)裕照;
RDataSets-?用于裝載許多R中可用數(shù)據(jù)集的Julia包;
DataFrames–?處理列表數(shù)據(jù)的Julia庫(kù)调塌;
Distributions-?概率分布和相關(guān)函數(shù)的Julia包晋南;
Data Arrays-?允許缺失值的數(shù)據(jù)結(jié)構(gòu);
Time Series–?Julia的時(shí)間序列工具包烟阐;
Sampling-?Julia的基本采樣算法搬俊。
其他項(xiàng)/展示
DSP-數(shù)字信號(hào)處理(濾波,周期圖蜒茄,頻譜圖唉擂,窗函數(shù));
JuliaCon Presentations–?JuliaCon的演示文稿檀葛;
SignalProcessing–?Julia寫(xiě)的信號(hào)處理工具玩祟;
Images–?Julia的圖像庫(kù)。
編譯自:https://github.com/josephmisiti/awesome-machine-learning
來(lái)源:云棲社區(qū)
譯者:劉崇鑫 ? 校對(duì):王殿進(jìn)