數(shù)據(jù)挖掘第四講
數(shù)據(jù)預(yù)處理的作用?
- 在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理
- 現(xiàn)實(shí)世界的數(shù)據(jù)通常無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意,為了提高數(shù)據(jù)挖掘的質(zhì)量需要對(duì)現(xiàn)實(shí)數(shù)據(jù)進(jìn)行處理
常見的數(shù)據(jù)預(yù)處理方法都有哪些,分別如何處理?
-
數(shù)據(jù)清理
- 現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的种吸、不完整的和不一致的铡溪。數(shù)據(jù)清理例程試圖填充遺漏的值,識(shí)別局外者毅否、消除噪音,并糾正數(shù)據(jù)中的不一致矮固。
數(shù)據(jù)集成
數(shù)據(jù)變換
數(shù)據(jù)歸約
數(shù)據(jù)清理:
- 遺漏值
- 忽略元組
- 人工填寫遺漏值
- 使用一個(gè)全局常量填充遺漏值
- 使用屬性的平均值填充遺漏值
- 使用與給定元組屬同一類的所有樣本的平均值
- 使用最可能的值填充遺漏值
- 噪音數(shù)據(jù)
- 噪音是測(cè)量變量的隨機(jī)錯(cuò)誤或偏差
- 去除噪音需要數(shù)據(jù)平滑技術(shù)
- 分箱
- 存儲(chǔ)的值被分布到一些“桶”或箱中。
- 通過考察“鄰居”(即氯质,周圍的值)來平滑箱中存儲(chǔ)數(shù)據(jù)的值
- 由于分箱方法導(dǎo)致值相鄰募舟,因此它進(jìn)行局部平滑
- 聚類:將類似的值組織成群或“聚類”,落在聚類集合之外的值被視為噪聲
- 計(jì)算機(jī)和人工檢查結(jié)合
- 算機(jī)根據(jù)可能的錯(cuò)誤模式進(jìn)行預(yù)搜索
- 人工對(duì)錯(cuò)誤模式進(jìn)行檢驗(yàn)
- 回歸
- 可以通過讓數(shù)據(jù)適合一個(gè)函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù)
- 線性回歸:找出適合兩個(gè)變量的直線闻察,使得一個(gè)變量能夠預(yù)測(cè)另一個(gè)
- 多線性回歸是線性回歸的擴(kuò)展拱礁,它涉及多于兩個(gè)變量琢锋,數(shù)據(jù)要適合一個(gè)多維面
- 不一致數(shù)據(jù)
- 格式不一致(實(shí)際值相同)
- 編碼/命名不同(同一個(gè)對(duì)象)
- 數(shù)據(jù)冗余(分布式)
- 數(shù)據(jù)集成與變換
- 數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合,存放在一致的數(shù)據(jù)存儲(chǔ)中
- 數(shù)據(jù)變換
- 平滑
- 聚集
- 數(shù)據(jù)泛化(屬性該被泛化刪除還是保留呢灶,大量不同值吴超,)
- 規(guī)范化(最小,最大規(guī)范化)(z-score規(guī)范化)
- 屬性構(gòu)造
- 數(shù)據(jù)相關(guān)性(皮爾森相關(guān)性)
TF-IDF算法是什么,有什么實(shí)際含義?
- TFIDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高鸯乃,并且在其他文章中很少出現(xiàn)鲸阻,則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類飒责。
- TFIDF實(shí)際上是:TF * IDF,TF詞頻(Term Frequency)仆潮,IDF逆向文件頻率(Inverse Document Frequency)宏蛉。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少性置,也就是n越小拾并,IDF越大,則說明詞條t具有很好的類別區(qū)分能力鹏浅。