7.2(參考答案)
1.將各個(gè)銷售點(diǎn)的銷售事務(wù)數(shù)據(jù)庫中特定類型商品的銷售數(shù)據(jù)通過數(shù)據(jù)預(yù)處理操作裝入數(shù)據(jù)倉庫,以備數(shù)據(jù)挖掘使用阀湿。
2.數(shù)據(jù)倉庫中數(shù)據(jù)的維包括region,day-of-the-week,time-of-the-day,度量為銷售額。
3.通過對(duì)2-D冤灾,3-D方體進(jìn)行分析,利用多維挖掘方法(如構(gòu)建決策樹等)奠货,挖掘多維關(guān)聯(lián)規(guī)則
4.通過在不同的概念分層中進(jìn)行分析堕担,結(jié)合多層關(guān)聯(lián)規(guī)則挖掘方法已慢,挖掘多層關(guān)聯(lián)規(guī)則(可以與多維關(guān)聯(lián)規(guī)則同時(shí)進(jìn)行)
7.5(參考答案)
根據(jù)FP-growth算法,設(shè)計(jì)挖掘負(fù)相關(guān)模式集的模式增長算法霹购;
7.7
(a)此約束是簡潔的也是單調(diào)的佑惠。這一約束可以通過使用FP-growth來進(jìn)行有效地挖掘:
●所有頻繁的藍(lán)光DVD電影放在頻繁商品列表L的末尾
●通過全局的FP-tree的迭代挖掘產(chǎn)生頻繁的藍(lán)光DVD的條件模式基和FP-tree
(b)此約束是反單調(diào)的∑敫恚可以通過Apriori算法進(jìn)行有效地挖掘:僅僅檢查那些價(jià)格之和小于$150的候選膜楷。
(c)此約束是單調(diào)的(“包含一件免費(fèi)商品”是簡潔的,“價(jià)格之和至少是$200”是單調(diào)的)贞奋,這一約束可以通過使用FP-growth進(jìn)行有效的挖掘:
●把所有頻繁的免費(fèi)商品放于頻繁商品列表L的末尾
●通過全局FP-tree的迭代挖掘步驟赌厅,挖掘頻繁的免費(fèi)商品的條件模式基和FP-tree,其他的免費(fèi)商品應(yīng)該從這些條件模式基和FP-tree中刪除轿塔。
●如果發(fā)現(xiàn)一個(gè)模式的商品價(jià)格和大于等于$200特愿,在后續(xù)的迭代步驟中不需要再檢查總價(jià)格是否滿足條件。
●如果一個(gè)模式中的商品(或者條件模式基中的頻繁商品)價(jià)格和小于$200勾缭,模式(或條件模式基)應(yīng)該進(jìn)行剪枝操作揍障。
(d)此約束是不可轉(zhuǎn)變的(雖然“平均價(jià)格至少為$100”和“平均價(jià)格至多為$500”都是可轉(zhuǎn)變的)。此約束可以通過FP-tree進(jìn)行有效地挖掘:
●所有的頻繁商品按價(jià)格降序排列
●如果模式和條件基中產(chǎn)品的平均價(jià)格小于$100俩由,這個(gè)模式和它的條件模式基可以被剪枝毒嫡。
●如果一個(gè)模式和它的條件模式基的商品平均價(jià)格大于$500,這個(gè)模式和它的條件模式基可以被剪枝幻梯。
7.8
通過研究事務(wù)的核模式审胚,我們發(fā)現(xiàn)與較短的模式相比,較長的或巨型模式有更多的核模式礼旅,巨型模式更魯棒。所以洽洁,給定一個(gè)較小的c痘系,巨型模式通常比短模式擁有更多的長度為c的核后代;所以饿自,從長度為c的模式的完全集中隨機(jī)抽取汰翠,選中巨型模式的核后代的可能性更大。在該完全集中昭雌,識(shí)別巨型模式的所有核后代复唤,然后合并它們,這將產(chǎn)生巨型模式的更長的核后代烛卧,使我們有能力沿著巨型模式核模式樹的一條通往該巨型模式的路徑跳躍佛纫。因此妓局,通過迭代步驟,巨型模式可以通過合并其核模式的真子集產(chǎn)生呈宇。例如好爬,abcef(在此將其看做巨型模式)可以通過只合并它的兩個(gè)核模式ab和cef產(chǎn)生,而不必合并它的全部核模式甥啄。