基于Apriori算法的關(guān)聯(lián)規(guī)則分析模型
基于Apriori算法的關(guān)聯(lián)規(guī)則分析模型
5.3.1基于Apriori算法的關(guān)聯(lián)規(guī)則分析
橋梁是一個復(fù)雜的結(jié)構(gòu)系統(tǒng)戒傻,橋梁的監(jiān)測參數(shù)受各方面的影響税手,與此同時(shí),監(jiān)測到的橋梁各參數(shù)也會發(fā)生變化需纳,各參數(shù)代表的含義也不太一樣芦倒,比如撓度是豎直方向位移的表示,傾斜角是豎直和水平方向位移的聯(lián)合表示不翩,索力是拉索拉力的表示兵扬。各屬性之間既相互獨(dú)立有相互關(guān)聯(lián)麻裳。同時(shí)各參數(shù)都是在一定的條件下測量得到,如溫度和濕度條件在測量時(shí)相對固定器钟。
建立橋梁狀態(tài)評估的Apriori模型津坑,通過對監(jiān)測的歷史數(shù)據(jù)分析,形成橋梁數(shù)據(jù)各屬性之間強(qiáng)的關(guān)聯(lián)規(guī)則傲霸,同時(shí)對各屬性之間潛在的關(guān)聯(lián)規(guī)則挖掘疆瑰,為橋梁狀態(tài)的評估提供更多的有數(shù)據(jù)支撐的依據(jù),適應(yīng)在線評估系統(tǒng)的實(shí)時(shí)性和快速性要求昙啄。對采集頻率較快的系統(tǒng)或?qū)傩蕴峁└行У姆椒乱郏脴?gòu)造FP-tree方法,減少對數(shù)據(jù)庫的訪問梳凛,更快的實(shí)現(xiàn)規(guī)則的挖掘耿币。
5.3.2 算法實(shí)現(xiàn)及分析
1)數(shù)據(jù)分箱
由于橋梁各屬性通過傳感器采集數(shù)據(jù),數(shù)據(jù)類型一般為數(shù)值型數(shù)據(jù)韧拒,Apriori算法處理的數(shù)據(jù)一般為序列值或者符號型數(shù)據(jù)淹接,需要對數(shù)據(jù)進(jìn)行分箱化處理。通過對各屬性做分箱化處理叛溢,減少由于各屬性取值范圍對模型的影響塑悼,根據(jù)數(shù)據(jù)值采取等間隔分箱,根據(jù)數(shù)據(jù)量的大小以及考慮算法的性能本文采用分箱數(shù)目為 4楷掉。通過分箱后拢肆,各種屬性的值由連續(xù)值變?yōu)榉柣闹担档娜≈禐?1靖诗、2、3支示、4刊橘。這樣就構(gòu)建了適合于模型處理的結(jié)構(gòu)化數(shù)據(jù)。
對原始的數(shù)據(jù)做標(biāo)準(zhǔn)化后颂鸿,并且按照等距離進(jìn)行分箱后促绵,得到形如 1、2嘴纺、3败晴、4 離散的變量,各屬性分箱對應(yīng)表如圖 5.7-圖 5.10 所示栽渴,根據(jù)分箱的對應(yīng)性尖坤,可以得到對應(yīng)的各屬性的值域。
2) 支持度和置信度的計(jì)算
一旦由數(shù)據(jù)庫D中的事務(wù)找出頻繁項(xiàng)集闲擦,由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是直截了當(dāng)?shù)?強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度)慢味。對于置信度场梆,可以用下式,其中條件概率用項(xiàng)集支持度計(jì)數(shù)表示纯路。
由于規(guī)則由頻繁項(xiàng)集產(chǎn)生或油,每個規(guī)則都自動滿足最小支持度。頻繁項(xiàng)集連同它們的支持度預(yù)先存放在散列表中驰唬,使得它們可以快速被訪問顶岸。
最小支持度和最小置信度閾值的大小對生成規(guī)則有很大的影響,支持度為序列在總體數(shù)據(jù)庫里所占的比率叫编,置信度為在某個狀態(tài)下另外屬性相應(yīng)狀態(tài)的條件概率辖佣。當(dāng)閾值設(shè)置得太大時(shí),不容易得到規(guī)則宵溅,當(dāng)閾值設(shè)置得太小時(shí)凌简,生成的規(guī)則太多,難以提取有效的規(guī)則恃逻,同時(shí)由于Apriori每次增加項(xiàng)集時(shí)雏搂,需遍歷數(shù)據(jù)庫,影響算法的實(shí)現(xiàn)效率寇损。為了減小模型的復(fù)雜度凸郑,設(shè)置最大的前項(xiàng)數(shù)目為5。
對橋梁監(jiān)測數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘根據(jù)統(tǒng)計(jì)學(xué)的特性矛市,提取正常狀態(tài)下橋梁的數(shù)據(jù)芙沥,根據(jù)各類屬性之間的相互關(guān)聯(lián)序列形成相關(guān)的規(guī)則,當(dāng)各類屬性序列出現(xiàn)的頻率較高時(shí)浊吏,這判定此序列為正常狀態(tài)下的一個模式而昨,當(dāng)實(shí)時(shí)或者最近的數(shù)據(jù)序列中,當(dāng)序列的前幾個屬性對應(yīng)規(guī)則中的數(shù)據(jù)值時(shí)找田,而序列的后幾個屬性偏離規(guī)則中的值時(shí)歌憨,則可能是橋梁的結(jié)構(gòu)發(fā)生了變異,需及時(shí)的跟蹤和查找橋梁的狀態(tài)墩衙,將橋梁的危害發(fā)現(xiàn)在萌芽狀態(tài)务嫡。
3)項(xiàng)集和關(guān)聯(lián)規(guī)則
為了得到在橋梁正常營運(yùn)過程中的常規(guī)數(shù)據(jù)模式,通過設(shè)置最小支持度和最小置信度來得到強(qiáng)關(guān)聯(lián)規(guī)則漆改,根據(jù)Apriori算法的性質(zhì)心铃,算法分為連接步和剪枝步,連接步通過查找各個屬性子序列在數(shù)據(jù)庫中的支持度挫剑,同時(shí)以子序列為前件去扣,計(jì)算以另外屬性為后件的置信度,
4)結(jié)果驗(yàn)證和意義的分析
Apriori提取的規(guī)則是在數(shù)據(jù)記錄中暮顺,滿足支持度和置信度大于設(shè)置的閾值時(shí)得到的頻繁模式和強(qiáng)規(guī)則厅篓,并不一定符合所有正常狀況記錄的數(shù)據(jù)秀存。因此對于這些規(guī)則的驗(yàn)證方法是判斷驗(yàn)證數(shù)據(jù)集是否也具有相似的規(guī)則支持度和置信度,對于這些規(guī)則的應(yīng)用同樣也是用于判斷給定的一段時(shí)間數(shù)據(jù)記錄的強(qiáng)規(guī)則是否具有相似的支持度和置信度羽氮,相似時(shí)表明橋梁結(jié)構(gòu)狀況正常或链,否則可能有異常變化〉笛海可能是橋梁的結(jié)構(gòu)發(fā)生了變異澳盐,這時(shí)需及時(shí)跟蹤數(shù)據(jù)值的變化動向,以及查找與屬性對應(yīng)的橋梁的狀態(tài)令宿。
采用2011年6月所采集的120條數(shù)據(jù)對強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行驗(yàn)證:
通過驗(yàn)證可以看出叼耙,對應(yīng)于樣本集產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則,根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則中的屬性粒没,驗(yàn)證集中屬性落入強(qiáng)關(guān)聯(lián)規(guī)則值域的記錄數(shù)占驗(yàn)證集的比例基本與樣本集一致筛婉,再以與樣本集規(guī)則中同樣屬性作為前件的情況下,得到同樣后件值域的置信度準(zhǔn)確率平均為 98.87%癞松。通過對樣本集和驗(yàn)證集對比可看出爽撒,從樣本數(shù)據(jù)得到的規(guī)則的具有較強(qiáng)的有效性。能有效地預(yù)測和歸納當(dāng)前或以后的監(jiān)測數(shù)據(jù)响蓉。
當(dāng)橋梁的結(jié)構(gòu)發(fā)生變異硕勿,影響橋梁的安全性時(shí),此時(shí)結(jié)構(gòu)的變異是不可逆過程枫甲,則橋梁的監(jiān)測參數(shù)值將發(fā)生整體的偏移源武,對應(yīng)于強(qiáng)關(guān)聯(lián)規(guī)則中的屬性,屬性值也將發(fā)生整體的變化想幻,當(dāng)監(jiān)測的數(shù)據(jù)或以后的數(shù)據(jù)集中粱栖,對于強(qiáng)關(guān)聯(lián)規(guī)則中的屬性,當(dāng)支持度與置信度與正常數(shù)據(jù)樣本集產(chǎn)生的規(guī)則的支持度和置信度發(fā)生較大的偏離時(shí)脏毯,則橋梁可能出現(xiàn)了異常查排。
此外,Apriori算法生成的規(guī)則可能會出現(xiàn)下述問題抄沮,因此對于規(guī)則的應(yīng)用需要結(jié)合具體的橋梁專業(yè)知識進(jìn)行具體分析。
①強(qiáng)關(guān)聯(lián)規(guī)則不一定有意義岖瑰,這時(shí)叛买,通過挖掘出來的規(guī)則就可能起到誤導(dǎo)的作用。這時(shí)蹋订,需提高對置信度閾值的設(shè)置率挣,在一定的程度上減少這種規(guī)則的產(chǎn)生。同時(shí)露戒,根據(jù)數(shù)據(jù)的統(tǒng)計(jì)特性椒功,人工甄別這些規(guī)則捶箱。
②有意義的規(guī)則不一定是強(qiáng)關(guān)聯(lián)規(guī)則。某些有意義的序列并不一定在總的事務(wù)中占大的比例动漾,但是這些小比例事務(wù)可能蘊(yùn)含了有價(jià)值的信息丁屎。判斷規(guī)則的意義需從客觀的因素和主觀的因素去考慮,得到的規(guī)則需結(jié)合業(yè)務(wù)模型總體考慮旱眯,從客觀的數(shù)據(jù)的角度得到的規(guī)則并不是全有意義晨川,有意義的信息也不全包含在規(guī)則中,一些項(xiàng)目集的事務(wù)數(shù)在總事務(wù)數(shù)中占有的比例很少删豺,但有可能隱含了一些有意義的規(guī)則共虑。
基于數(shù)據(jù)的統(tǒng)計(jì)特性得到的關(guān)聯(lián)規(guī)則提高分析效率,同時(shí)找到隱含的規(guī)律呀页,對于支持度較小的可能有意義的規(guī)則妈拌,則通過本文中的Kohonen聚類算法或其它的方法,協(xié)助來尋找此類型規(guī)則蓬蝶,如根據(jù)聚類形成的簇尘分,與其它的簇距離較大且簇中記錄較少,對這些集中的記錄進(jìn)行重點(diǎn)的分析疾党。
《來源科技文獻(xiàn)音诫,經(jīng)本人分析整理,以技術(shù)會友雪位,廣交天下朋友》