數(shù)據(jù)挖掘第四講

數(shù)據(jù)挖掘第四講

數(shù)據(jù)預(yù)處理的作用?

  1. 在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理
  2. 現(xiàn)實(shí)世界的數(shù)據(jù)通常無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意,為了提高數(shù)據(jù)挖掘的質(zhì)量需要對(duì)現(xiàn)實(shí)數(shù)據(jù)進(jìn)行處理

常見的數(shù)據(jù)預(yù)處理方法都有哪些,分別如何處理?

  1. 數(shù)據(jù)清理

    • 現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的种吸、不完整的和不一致的铡溪。數(shù)據(jù)清理例程試圖填充遺漏的值,識(shí)別局外者毅否、消除噪音,并糾正數(shù)據(jù)中的不一致矮固。
  2. 數(shù)據(jù)集成

  3. 數(shù)據(jù)變換

  4. 數(shù)據(jù)歸約

  5. 數(shù)據(jù)清理:

  • 遺漏值
    • 忽略元組
    • 人工填寫遺漏值
    • 使用一個(gè)全局常量填充遺漏值
    • 使用屬性的平均值填充遺漏值
    • 使用與給定元組屬同一類的所有樣本的平均值
    • 使用最可能的值填充遺漏值
  • 噪音數(shù)據(jù)
    • 噪音是測(cè)量變量的隨機(jī)錯(cuò)誤或偏差
    • 去除噪音需要數(shù)據(jù)平滑技術(shù)
    • 分箱
      • 存儲(chǔ)的值被分布到一些“桶”或箱中。
      • 通過考察“鄰居”(即氯质,周圍的值)來平滑箱中存儲(chǔ)數(shù)據(jù)的值
      • 由于分箱方法導(dǎo)致值相鄰募舟,因此它進(jìn)行局部平滑
    • 聚類:將類似的值組織成群或“聚類”,落在聚類集合之外的值被視為噪聲
    • 計(jì)算機(jī)和人工檢查結(jié)合
      • 算機(jī)根據(jù)可能的錯(cuò)誤模式進(jìn)行預(yù)搜索
      • 人工對(duì)錯(cuò)誤模式進(jìn)行檢驗(yàn)
    • 回歸
      • 可以通過讓數(shù)據(jù)適合一個(gè)函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù)
      • 線性回歸:找出適合兩個(gè)變量的直線闻察,使得一個(gè)變量能夠預(yù)測(cè)另一個(gè)
      • 多線性回歸是線性回歸的擴(kuò)展拱礁,它涉及多于兩個(gè)變量琢锋,數(shù)據(jù)要適合一個(gè)多維面
    • 不一致數(shù)據(jù)
      • 格式不一致(實(shí)際值相同)
      • 編碼/命名不同(同一個(gè)對(duì)象)
      • 數(shù)據(jù)冗余(分布式)
  1. 數(shù)據(jù)集成與變換
    • 數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合,存放在一致的數(shù)據(jù)存儲(chǔ)中
    • 數(shù)據(jù)變換
      • 平滑
      • 聚集
      • 數(shù)據(jù)泛化(屬性該被泛化刪除還是保留呢灶,大量不同值吴超,)
      • 規(guī)范化(最小,最大規(guī)范化)(z-score規(guī)范化)
      • 屬性構(gòu)造
    • 數(shù)據(jù)相關(guān)性(皮爾森相關(guān)性)

TF-IDF算法是什么,有什么實(shí)際含義?

  • TFIDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高鸯乃,并且在其他文章中很少出現(xiàn)鲸阻,則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類飒责。
  • TFIDF實(shí)際上是:TF * IDF,TF詞頻(Term Frequency)仆潮,IDF逆向文件頻率(Inverse Document Frequency)宏蛉。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:如果包含詞條t的文檔越少性置,也就是n越小拾并,IDF越大,則說明詞條t具有很好的類別區(qū)分能力鹏浅。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嗅义,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子隐砸,更是在濱河造成了極大的恐慌之碗,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件季希,死亡現(xiàn)場(chǎng)離奇詭異褪那,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)式塌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門博敬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人峰尝,你說我怎么就攤上這事偏窝。” “怎么了武学?”我有些...
    開封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵祭往,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我火窒,道長(zhǎng)链沼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任沛鸵,我火速辦了婚禮括勺,結(jié)果婚禮上缆八,老公的妹妹穿的比我還像新娘。我一直安慰自己疾捍,他們只是感情好奈辰,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著乱豆,像睡著了一般奖恰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宛裕,一...
    開封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天瑟啃,我揣著相機(jī)與錄音,去河邊找鬼揩尸。 笑死蛹屿,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的岩榆。 我是一名探鬼主播错负,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼勇边!你這毒婦竟也來了犹撒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤粒褒,失蹤者是張志新(化名)和其女友劉穎识颊,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奕坟,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谊囚,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了执赡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镰踏。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖沙合,靈堂內(nèi)的尸體忽然破棺而出奠伪,到底是詐尸還是另有隱情,我是刑警寧澤首懈,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布绊率,位于F島的核電站,受9級(jí)特大地震影響究履,放射性物質(zhì)發(fā)生泄漏滤否。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一最仑、第九天 我趴在偏房一處隱蔽的房頂上張望藐俺。 院中可真熱鬧炊甲,春花似錦、人聲如沸欲芹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽菱父。三九已至颈娜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間浙宜,已是汗流浹背官辽。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留粟瞬,地道東北人同仆。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像亩钟,于是被迫代替她去往敵國(guó)和親乓梨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鳖轰,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容