【轉(zhuǎn)】Python 和 R 數(shù)據(jù)分析/挖掘工具互查

在此總結(jié)一些在數(shù)據(jù)分析/挖掘中可能用到的功能拘哨,方便大家索引或者從一種語言遷移到另一種。當(dāng)然隘庄,這篇博客還會隨時更新(不會另起一篇,為了方便大家索引)街州,請大家如果有需要收藏到書簽中。

如果大家還知道哪些常用的命令,也可以在評論中回復(fù)我趟紊。我可以添加進來,方便更多地人更方便的檢索唧躲。也希望大家可以轉(zhuǎn)載嵌器。
如果大家已經(jīng)熟悉python和R的模塊/包載入方式蚓让,那下面的表查找起來相對方便衷佃。python在下表中以模塊.的方式引用图云,部分模塊并非原生模塊,請使用pip install *安裝丹泉;
同理,為了方便索引泉蝌,R中也以** ::**表示了函數(shù)以及函數(shù)所在包的名字贪磺,如果不含::表示為R的默認包中就有,如含::,請使用install.packages("*")安裝喇喉。

連接器與io

數(shù)據(jù)庫

類別 Python R
MySQL mysql-connector-python(官方) RMySQL
Oracle cx_Oracle ROracle
Redis redis rredis
MongoDB pymongo RMongo, rmongodb
neo4j py2neo RNeo4j
Cassandra cassandra-driver RJDBC
ODBC pyodbc RODBC
JDBC 未知[Jython Only] RJDBC

IO類

類別 Python R
excel xlsxWriter, pandas.(from/to)_excel, openpyxl openxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csv csv.writer read.csv(2), read.table
json json jsonlite

圖片

PIL, jpeg, png, tiff, bmp

統(tǒng)計類

描述性統(tǒng)計

類別 Python R
描述性統(tǒng)計匯總 scipy.stats.descirbe summary
均值 scipy.stats.gmean(幾何平均數(shù)), scipy.stats.hmean(調(diào)和平均數(shù)), numpy.mean, numpy.nanmean, pandas.Series.mean mean
中位數(shù) numpy.median, numpy.nanmediam, pandas.Series.median median
眾數(shù) scipy.stats.mode, pandas.Series.mode 未知
分位數(shù) numpy.percentile, numpy.nanpercentile, pandas.Series.quantile quantile
經(jīng)驗累積函數(shù)(ECDF) statsmodels.tools.ECDF ecdf
標準差 scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std sd
方差 numpy.var, pandas.Series.var var
變異系數(shù) scipy.stats.variation 未知
協(xié)方差 numpy.cov, pandas.Series.cov cov
(Pearson)相關(guān)系數(shù) scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr cor
峰度 scipy.stats.kurtosis, pandas.Series.kurt e1071::kurtosis
偏度 scipy.stats.skew, pandas.Series.skew e1071::skewness
直方圖 numpy.histogram, numpy.histogram2d, numpy.histogramdd 未知

回歸(包括統(tǒng)計和機器學(xué)習(xí))

類別 Python R
普通最小二乘法回歸(ols) statsmodels.ols, sklearn.linear_model.LinearRegression lm,
廣義線性回歸(gls) statsmodels.gls nlme::gls, MASS::gls
分位數(shù)回歸(Quantile Regress) statsmodels.QuantReg quantreg::rq
嶺回歸 sklearn.linear_model.Ridge MASS::lm.ridge, ridge::linearRidge
LASSO sklearn.linear_model.Lasso lars::lars
最小角回歸 sklearn.linear_modle.LassoLars lars::lars
穩(wěn)健回歸 statsmodels.RLM MASS::rlm

假設(shè)檢驗

類別 Python R
t檢驗 statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel t.test
ks檢驗(檢驗分布) scipy.stats.kstest, scipy.stats.kstest_2samp ks.test
wilcoxon(非參檢驗烫幕,差異檢驗) scipy.stats.wilcoxon, scipy.stats.mannwhitneyu wilcox.test
Shapiro-Wilk正態(tài)性檢驗 scipy.stats.shapiro shapiro.test
Pearson相關(guān)系數(shù)檢驗 scipy.stats.pearsonr cor.test

時間序列

類別 Python R
AR statsmodels.ar_model.AR ar
ARIMA statsmodels.arima_model.arima arima
VAR statsmodels.var_model.var 未知

** python還可參見PyFlux.**

生存分析

類別 Python R
PH回歸 statsmodels.formula.api.phreg 未知

專門分析的模塊:Python: Lifelines

機器學(xué)習(xí)類

回歸

參見統(tǒng)計類

分類器

LDA捷犹、QDA

類別 Python R
LDA sklearn.discriminant_analysis.LinearDiscriminantAnalysis MASS::lda
QDA sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis MASS::qda

SVM(支持向量機)

類別 Python R
支持向量分類器(SVC) sklearn.svm.SVC e1071::svm
非支持向量分類器(nonSVC) sklearn.svm.NuSVC 未知
線性支持向量分類器(Lenear SVC) sklearn.svm.LinearSVC 未知

基于臨近

類別 Python R
k-臨近分類器 sklearn.neighbors.KNeighborsClassifier 未知
半徑臨近分類器 sklearn.neighbors.RadiusNeighborsClassifier 未知
臨近重心分類器(Nearest Centroid Classifier) sklearn.neighbors.NearestCentroid 未知

貝葉斯

類別 Python R
樸素貝葉斯 sklearn.naive_bayes.GaussianNB e1071::naiveBayes
多維貝葉斯(Multinomial Naive Bayes) sklearn.naive_bayes.MultinomialNB 未知
伯努利貝葉斯(Bernoulli Naive Bayes) sklearn.naive_bayes.BernoulliNB 未知

決策樹

類別 Python R
決策樹分類器 sklearn.tree.DecisionTreeClassifier tree::tree, party::ctree
決策樹回歸器 sklearn.tree.DecisionTreeRegressor tree::tree, party::tree
Assemble方法
類別 子類別 Python R
Bagging 隨機森林分類器 sklearn.ensemble.RandomForestClassifier randomForest::randomForest,party::cforest
Bagging 隨機森林回歸器 sklearn.ensemble.RandomForestRegressor randomForest::randomForest,party::cforest
Boosting Gradient Boosting xgboost模塊 xgboost包
Boosting AdaBoost sklearn.ensemble.AdaBoostClassifier adabag蔑舞、fastAdaboost攻询、ada
Stacking 未知 未知 未知
聚類
類別 Python R
kmeans scipy.cluster.kmeans.kmeans kmeans::kmeans
分層聚類 scipy.cluster.hierarchy.fcluster (stats::)hclust
包聚類(Bagged Cluster) 未知 e1071::bclust
DBSCAN sklearn.cluster.DBSCAN dbscan::dbsan
Birch sklearn.cluster.Birch 未知
K-Medoids聚類 pyclust.KMedoids(可靠性未知) cluster.pam
關(guān)聯(lián)規(guī)則
類別 Python R
apriori算法 apriori(可靠性未知拯杠,不支持py3), PyFIM(可靠性未知,不可用pip安裝) arules::apriori
FP-Growth算法 fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知誓沸,不可用pip安裝) 未知
神經(jīng)網(wǎng)絡(luò)
類別 Python R
神經(jīng)網(wǎng)絡(luò) neurolab.net, keras.* nnet::nnet, nueralnet::nueralnet
深度學(xué)習(xí) keras.* 不可靠包居多以及未知

當(dāng)然,theano模塊值得一提垦页,但本質(zhì)theano包的設(shè)計并非在神經(jīng)網(wǎng)絡(luò),所以不歸于此類薄啥。

概率圖模型

python: PyMC3

文本、NLP

基本操作
類別 Python R
tokenize nltk.tokenize(英), jieba.tokenize(中) tau::tokenize
stem nltk.stem RTextTools::wordStem, SnowballC::wordStem
stopwords stop_words.get_stop_words tm::stopwords, qdap::stopwords
中文分詞 jieba.cut, smallseg, Yaha, finalseg, genius jiebaR
TFIDF gensim.models.TfidfModel 未知

主題模型

類別 Python R
LDA lda.LDA, gensim.models.ldamodel.LdaModel topicmodels::LDA
LSI gensim.models.lsiModel.LsiModel 未知
RP gensim.models.rpmodel.RpModel 未知
HDP gensim.models.hdpmodel.HdpModel 未知

** 值得留意的是python的新第三方模塊滤钱,spaCy **

與其他分析/可視化/挖掘/報表工具的交互

類別 Python R
weka python-weka-wrapper RWeka
Tableau tableausdk Rserve(實際是R的服務(wù)包)

PS: 原網(wǎng)址已經(jīng)丟失掰曾,找到后會第一之間更新轉(zhuǎn)載地址

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末佑稠,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子幔嫂,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件协屡,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機余蟹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進店門挺峡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尤仍,“玉大人宰啦,你說我怎么就攤上這事±旄蹋” “怎么了?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長丛肢。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么榜轿? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任幽歼,我火速辦了婚禮,結(jié)果婚禮上谬盐,老公的妹妹穿的比我還像新娘。我一直安慰自己飞傀,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布颜说。 她就那樣靜靜地躺著韭邓,像睡著了一般屈张。 火紅的嫁衣襯著肌膚如雪剖效。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機與錄音宫补,去河邊找鬼秉犹。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的抚太。 我是一名探鬼主播匾乓,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼废酷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了橙垢?” 一聲冷哼從身側(cè)響起剂癌,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤桐猬,失蹤者是張志新(化名)和其女友劉穎润绎,沒想到半個月后涂佃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惭蟋,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年催烘,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖旨枯,靈堂內(nèi)的尸體忽然破棺而出劫扒,到底是詐尸還是另有隱情氏淑,我是刑警寧澤嗽仪,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布夯秃,位于F島的核電站旨指,受9級特大地震影響季二,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桑嘶,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧傲霸,春花似錦、人聲如沸梳凛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至刊橘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間败晴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工场梆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人顶岸。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓搓逾,卻偏偏與公主長得像雏搂,于是被迫代替她去往敵國和親裳食。 傳聞我的和親對象是個殘疾皇子浊吏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容