數(shù)據(jù)挖掘之分類(lèi)算法（補(bǔ)）

01. 基于規(guī)則的分類(lèi)器rule-based classifier

0.1 相關(guān)概念

通過(guò)一系列規(guī)則“如果。潮尝。榕吼。就。勉失。羹蚣。”乱凿，來(lái)進(jìn)行分類(lèi)

規(guī)則：（condition）--> y

condition：屬性的合取

規(guī)則覆蓋率：符合規(guī)則的記錄在所有記錄中所占據(jù)的比例

規(guī)則準(zhǔn)確率：規(guī)則正確預(yù)測(cè)在規(guī)則覆蓋的記錄中所占的比例

0.2特點(diǎn)

互斥規(guī)則：規(guī)則之間是相互排斥的顽素；每條記錄最多被一條規(guī)則所覆蓋；窮舉規(guī)則

0.3規(guī)則簡(jiǎn)化及其解決方法

簡(jiǎn)化后徒蟆，規(guī)則不在相互排斥：一條記錄可能滿足多條規(guī)則胁出；

簡(jiǎn)化后，規(guī)則不再詳細(xì)（全面）：一條記錄可能不會(huì)觸發(fā)任意一條規(guī)則

解決方法：

使用默認(rèn)分類(lèi)

決策樹(shù)可以轉(zhuǎn)換成基于規(guī)則的分類(lèi)器

0.4 有序規(guī)則

規(guī)則按照優(yōu)先級(jí)一次排列---->決策列表

測(cè)試時(shí)段审，數(shù)據(jù)記錄的預(yù)測(cè)分類(lèi)：滿足的規(guī)則最高優(yōu)先級(jí)規(guī)則作出的預(yù)測(cè)全蝶；如果數(shù)據(jù)記錄沒(méi)有滿足的規(guī)則，默認(rèn)類(lèi)別分類(lèi)

規(guī)則排序模式

（1）基于規(guī)則排序：規(guī)則的分類(lèi)能力

（2）基于類(lèi)的排序：相同類(lèi)別的規(guī)則排在一塊

0.5構(gòu)建分類(lèi)器規(guī)則

1.直接方法：直接從數(shù)據(jù)中抽取規(guī)則

????eg：RIPPER,CN2，Holte's 1R

順序覆蓋

步驟：

（1）start from an empty rule

（2）grow a rule using the Learn-One-Rule function

（3）remove training records covered by the rule

（4）repeat step 2 and 3 until stopping criterion is met

涉及的背景知識(shí)

（1）rule growing 生成規(guī)則

兩種策略：general-to-specific 和 specific-to-general

（2）instance elimination 刪除記錄

why do we need to eliminate instances?

--otherwise,the next rule is identical to previous rule

why do we remove positive instances?

--ensure that the next rule is different

why do we remove negative instances?

--prevent underestimationg accuracy of rule

（3）rule evaluation 規(guī)則評(píng)估

accuracy=nc/n

laplace=(nc+1)/(n+k)

M-estimate=(nc+kp)/(n+k)

n:數(shù)據(jù)集記錄數(shù)目

nc：規(guī)則覆蓋數(shù)據(jù)記錄數(shù)目

k：類(lèi)別數(shù)目

p：先驗(yàn)概率

（4）stopping criterion 停止條件

計(jì)算信息增益

如果信息增益不理想裸诽，丟棄該規(guī)則

（5）rule pruning 規(guī)則修剪

和決策樹(shù)的post-pruning后修剪類(lèi)似

reduced error pruning：

確定一條規(guī)則

在修剪之前和修剪后，分別計(jì)算比較在驗(yàn)證集上的錯(cuò)誤率

如果錯(cuò)誤率變高型凳，丟棄該規(guī)則

總結(jié)

grow a single rule

remove intances from rule

prune the rule(if necessary)

add rule to current rule set

repeat

2.間接方法

從其他分類(lèi)器（如：決策樹(shù)丈冬，神經(jīng)網(wǎng)絡(luò)等）中抽取規(guī)則

eg:C4.5規(guī)則

由決策樹(shù)生成：C4.5rules

步驟

extract rules from an unpruned dicision tree

for each rule , r: A--> y,

（1）consider an alternative rule r': A'-->y where A' is obtained by removing one of the conjuncts in A

（2）compare the pessimistic error rate for r against all r' s

（3）prune if one of the r' s has lower pessimistic error rate

（4）repeat until we can no longer improve generalization error

優(yōu)勢(shì)

和決策樹(shù)一樣具有很高的表述能力

容易理解、解釋

容易生成

對(duì)新的樣例劃分速度快

劃分效果和決策樹(shù)相當(dāng)

02Instance-based Classifiers 基于距離的分類(lèi)器

0.1 兩種方法

rote-learner：記錄所有的訓(xùn)練數(shù)據(jù)甘畅，當(dāng)新樣本的屬性正好和訓(xùn)練樣本的屬性相匹配時(shí)埂蕊，進(jìn)行分類(lèi)

nearest neighbor：k近鄰（k個(gè)最近的點(diǎn)neighbors），來(lái)進(jìn)行分類(lèi)

0.2準(zhǔn)備工作：

存儲(chǔ)的數(shù)據(jù)集

用來(lái)計(jì)算記錄之間的距離矩陣

確定k值的大小

分類(lèi) to classify an unknown record:

compute distance to other training records

identify k nearest neighbors

use class labels of nearest neighbors to determine the class label of unknown record(eg:by taking majority vote)

0.3其他問(wèn)題

（1）距離的度量

歐幾里得距離：計(jì)算兩個(gè)向量差的模

高緯度數(shù)據(jù)---維度爆炸 curse of dimensionality

處理方法：標(biāo)準(zhǔn)化

（2）k的選擇

太小疏唾，對(duì)噪聲點(diǎn)太過(guò)敏感

太大蓄氧，neighborhood可能包括其他類(lèi)比的數(shù)據(jù)點(diǎn)

（3）縮放 scale

prevent distance measures from being dominated by one of the attributes（避免距離的計(jì)算被某個(gè)屬性所主導(dǎo)）

03貝葉斯分類(lèi)器

0.1相關(guān)概念

基于概率的分類(lèi)器

consider each attribute and class label as random variables 各變量之間相互獨(dú)立

given a record with attributes (A1,A2,...An)

goal: predict class C

find the value of C that maximizes P(C| A1,A2,...,An)

estimate P(C|A1,A2,...,An) from data

compute the posterior probability?P(C|A1,A2,...,An)--后驗(yàn)概率 for all values of C using the Bayes theorem

choose value of C that maximizes?P(C|A1,A2,...,An)

equivalent to choosing value of C that maximizes?P(C|A1,A2,...,An)

estimate P(A1,A2,...,An|C)

假設(shè)各變量之間相互獨(dú)立

從現(xiàn)有數(shù)據(jù)中統(tǒng)計(jì)計(jì)算出P(Ai|C)，然后在計(jì)算P(A1,A2,...,An|C)

0.2連續(xù)數(shù)據(jù)怎么使用貝葉斯槐脏？

（1）discretize the range into bins 區(qū)間劃分

one ordinal attribute per bin 每個(gè)區(qū)間變成一個(gè)序數(shù)型數(shù)據(jù)

violates independence assumption 強(qiáng)制假設(shè)獨(dú)立

（2）two-ways split （A>v）or（A<v)

A. choose only one of the two splits as new attribute 二分后喉童，選擇其中的一個(gè)作為新的屬性

B. probability density estimation：概率密度估計(jì)

C. assume attribute follows a normal distribution 假設(shè)該連續(xù)屬性服從正態(tài)分布

D. use data to estimate parameters of distribution(eg: mean and standard deviation)；利用數(shù)據(jù)去估計(jì)計(jì)算正態(tài)分布的參數(shù)值：均值and方差（或標(biāo)準(zhǔn)差）

E. once probability distribution is known,can we compute the probability 顿天；知道分布函數(shù)堂氯，可以計(jì)算概率

（3）應(yīng)用過(guò)程中遇到的問(wèn)題

A. 零概率

one of the conditional probability is zero ,then the entire expression becomes zero 如果單變量的條件概率中出現(xiàn)了零概率，那么相乘以后牌废，整個(gè)條件概率值也是0

處理方法：

origin：P(Ai|C)=Nic/Nc（在類(lèi)別為c的數(shù)據(jù)集中咽白，Ai屬性為某一值時(shí)，數(shù)據(jù)所占的比例）

Laplace：P(Ai|C)=（Nic+1）/（Nc+c） ?【c：類(lèi)別數(shù)目鸟缕；】

m-estimate：P(Ai|C)=（Nic+mp）/（Nc+m）【p：先驗(yàn)概率晶框；m：一個(gè)參數(shù)】

（4）summary

robust to isolated noise points 對(duì)噪聲點(diǎn)具有健壯性

handle missing values by ignoring the instance during probability estimate calculations；針對(duì)缺失值的數(shù)據(jù)懂从，丟棄授段；

robust to irrelevant attributes 對(duì)不相關(guān)的數(shù)據(jù)有健壯性

independence assumption may not hold for some attributes 對(duì)于一些屬性不滿足獨(dú)立性假設(shè)：使用其他技術(shù)，像貝葉斯信念網(wǎng)絡(luò)

use other techniques such as Bayesian Belief Networks(BBN)

04SVM支持向量機(jī)

find a linear hyperplane that will separate the data 超平面

數(shù)據(jù)線性可分

對(duì)于不可分的數(shù)據(jù)--->變得線性可分番甩；核函數(shù)

評(píng)價(jià)指標(biāo)：distance

maximize

等價(jià)于 minimize

05 ensemble methods 集成的方法

construct a set of classifiers from the training data 通過(guò)訓(xùn)練數(shù)據(jù)構(gòu)建一系列的分類(lèi)器

predict class label of previously unseen records by aggregating predictions made by multiple classifiers畴蒲；預(yù)測(cè)新的數(shù)據(jù)記錄時(shí)，通過(guò)多個(gè)分類(lèi)的的所有分類(lèi)結(jié)果進(jìn)行分類(lèi)

general idea

相當(dāng)于：投票選取大會(huì)

0.1集成分類(lèi)器的生成方法

（1）bagging

（2）boosting????

迭代算法：adaptively change distribution of training data by focusing more on previously misclassified records自適應(yīng)的變動(dòng)訓(xùn)練數(shù)據(jù)的分布对室；關(guān)注于先前分類(lèi)器誤分的數(shù)據(jù)記錄

初始時(shí)模燥，所有的N條記錄分配相同的權(quán)重系數(shù)

和bagging算法不同，權(quán)重系數(shù)在每輪boosting結(jié)束以后掩宜，變動(dòng)

誤分的記錄的權(quán)重系數(shù)--增大

正確的記錄的權(quán)重系數(shù)--減小

adaboost

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末蔫骂，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子牺汤，更是在濱河造成了極大的恐慌辽旋，老刑警劉巖，帶你破解...
沈念sama閱讀 211,042評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異补胚，居然都是意外死亡码耐，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,996評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)溶其，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)骚腥，“玉大人，你說(shuō)我怎么就攤上這事瓶逃∈” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0贊 345
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵厢绝，是天一觀的道長(zhǎng)契沫。經(jīng)常有香客問(wèn)我，道長(zhǎng)昔汉，這世上最難降的妖魔是什么懈万？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮靶病，結(jié)果婚禮上钞速，老公的妹妹穿的比我還像新娘。我一直安慰自己嫡秕，他們只是感情好渴语，可當(dāng)我...
茶點(diǎn)故事閱讀 65,404評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著昆咽，像睡著了一般驾凶。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上掷酗，一...
開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1贊 289
城市分裂傳說(shuō)
那天调违，我揣著相機(jī)與錄音，去河邊找鬼泻轰。笑死技肩，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的浮声。我是一名探鬼主播虚婿，決...
沈念sama閱讀 38,902評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泳挥！你這毒婦竟也來(lái)了然痊？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤屉符，失蹤者是張志新（化名）和其女友劉穎剧浸，沒(méi)想到半個(gè)月后锹引，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,110評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡唆香，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,451評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年嫌变，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躬它。...
茶點(diǎn)故事閱讀 38,577評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡腾啥，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出虑凛，到底是詐尸還是另有隱情碑宴，我是刑警寧澤软啼，帶...
沈念sama閱讀 34,258評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布桑谍，位于F島的核電站，受9級(jí)特大地震影響祸挪，放射性物質(zhì)發(fā)生泄漏锣披。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,848評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一贿条、第九天我趴在偏房一處隱蔽的房頂上張望雹仿。院中可真熱鬧，春花似錦整以、人聲如沸胧辽。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0贊 21
一樁弒父案公黑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)邑商。三九已至，卻和暖如春凡蚜，著一層夾襖步出監(jiān)牢的瞬間人断，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工朝蜘，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留恶迈，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,271評(píng)論 2贊 360
代替公主和親
正文我出身青樓谱醇，卻偏偏與公主長(zhǎng)得像暇仲，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子副渴，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,452評(píng)論 2贊 348