1. mean(x, trim=percent, na.rm=), median(x, na.rm=), mode
mode 一組數(shù)據(jù)出現(xiàn)最多的值裁眯,可以是字符
2. 回歸:建立模型
(1)線性回歸
y = ax + b #x預(yù)測(cè)變量,y響應(yīng)變量
邏輯:收集數(shù)據(jù),lim()創(chuàng)建關(guān)系模型贸人,找到系數(shù),獲取殘差/平均誤差(找summary)淀歇,predict()運(yùn)用线婚,繪圖plot(y,x,abline(lm(x~y)), col, main...)?
tip: ~因變量與自變量
predict(function, data.frame(number))
#Error in int_abline
格式書寫錯(cuò)誤
解決:原本plot(y,x,abline(lm(x~y)),type="b") 變成 按照上述格式。
(2)多重回歸
y = a + b1x1 + b2x2 +...bnxn
lm(y ~ x1+x2+x3...,data)
coef(function)[position] #得系數(shù)蜒灰,系數(shù)位置可通過(guò)print(function)查閱
(3)邏輯回歸
y = 1/(1+e^-(a+b1x1+b2x2+b3x3+...)
概念
函數(shù):glm()
(4)泊松回歸
假設(shè)響應(yīng)變量泊松分布弦蹂;對(duì)數(shù)-線性模型
log(y) = a + b1x1 + b2x2 + bnxn.....
函數(shù):glm(formula=, data, family=poisson) #formula為變量間關(guān)系y~x1+x2
(5)非線性最小二乘回歸
尋找擬合的參數(shù)系數(shù)
模型:a = b1*x^2+b2
函數(shù)nls(formula, data, start) #formula假設(shè)的關(guān)系,start 數(shù)字列表或者數(shù)字向量
3. 標(biāo)準(zhǔn)分布與二項(xiàng)分布:概率問(wèn)題
(1)標(biāo)準(zhǔn)分布
dnorm(x, mean, sd) #x seq(num1,num2,by = num3)num1 to num2 increase by num3 y軸為概率
pnorm(x, mean, sd) #累積分布函數(shù)强窖,y軸累積概率
qnorm(p, mean, sd) #累積分布函數(shù)凸椿,x軸累計(jì)概率
rnorm(n, mean, sd) #輸入樣本數(shù),隨機(jī)產(chǎn)生分布翅溺,hist直方圖顯示
(2)二項(xiàng)分布
理解:硬幣為例
dbinom(x,size,prob) #每個(gè)次數(shù)的概率
pbinom(x,size,prob) #單個(gè)值的概率
qbinorm(p, size, prob) #概率的單個(gè)累計(jì)值
rbinorm(n, size, prob) #n給定樣本數(shù)量給定概率的隨機(jī)值
4. 分析
(1)協(xié)方差分析ANCOVA
有兩個(gè)因素左右因變量脑漫,不感興趣或者不重要的因素稱為協(xié)變量髓抑,為分類型變量,另外一種為連續(xù)型變量
關(guān)鍵在于方差分析窿撬,線性回歸僅作為不可剔除的關(guān)系
邏輯:研究協(xié)變量的值對(duì)回歸的影響
函數(shù):
aov(y~x*z,data) #x為預(yù)測(cè)變量启昧,y為響應(yīng)變量叙凡,研究xz相互作用劈伴;響應(yīng)變量在前
anova(function) #function should be lm() OR glm()比較兩個(gè)模型看變量間的相互作用是否重要
如圖:
(2)時(shí)間序列分析
函數(shù):timeseries.object.name <- ts(data, start, end, frequency) #frequency=12月份,6每小時(shí)10分鐘握爷,4季度跛璧,24*6一天的每10分鐘
修改:多時(shí)間序列
邏輯:兩組合成matrix,注意nrow而非ncol新啼,ts()轉(zhuǎn)化為時(shí)間序列而非“先各自ts然后再組合”
#start的日期格式
help里說(shuō)的很清楚:single number或者a vector of two integers
(3)生存分析
安裝“survival”包
加載
函數(shù):
Surv(time, event) #event "frame$status=="
survival(formula) #analysis of Surv and what
REF:https://baike.baidu.com/item/%E5%8D%8F%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/5366621?fr=aladdin
(4)卡方檢驗(yàn)
VS ANOVA分析:確定兩分類變量是否存在顯著相關(guān)性
函數(shù):chiseq() #里面為含變量的表格形式數(shù)據(jù) 用table()函數(shù)
4. 決策樹和隨機(jī)森林
(1)決策樹
預(yù)測(cè)模型
例子:預(yù)測(cè)腫瘤癌變追城,預(yù)測(cè)電子郵件是否垃圾郵件,預(yù)測(cè)風(fēng)險(xiǎn)因素燥撞。
下載安裝包"party"
加載
head() #查看變量名稱
函數(shù):ctree(formula,data) #data數(shù)據(jù)集
(2)隨機(jī)森林算法
創(chuàng)建大量決策樹座柱,輸出每個(gè)觀察的最多結(jié)果。多數(shù)投票
包:randomForest
加載party包
函數(shù):randomForest(formula, data) #創(chuàng)建和編輯物舒,語(yǔ)法和決策樹一樣