簡介 K均值聚類,也叫做K-Means Clustering彪腔,是一種著名的用于分類問題的無監(jiān)督機器學習聚類算法纳令。聚類是針對給定的樣本挽荠, 依靠它們...
簡介 集成學習,顧名思義就是將多種學習器或算法結(jié)合在一起平绩,共同做出決策圈匆。這符合人類集思廣益的做法,在業(yè)界也是應用最為廣泛的方法之一捏雌。注意臭脓,集成學...
簡介 大概是今年6月份參加微信大數(shù)據(jù)挑戰(zhàn)賽的時候,我才開始認識到特征選擇也是機器學習中非常重要的一環(huán)腹忽。在諸如CTR等比賽中来累,原始特征往往是不足以...
簡介 決策樹模型是最常見的機器學習方法之一嘹锁,也是入門機器學習必須掌握的知識。決策樹模型呈現(xiàn)樹形結(jié)構(gòu)着裹,在分類問題中领猾,表示基于特征對實例進行分類的過...
簡介 特征離散化指的是將連續(xù)特征劃分離散的過程:將原始定量特征的一個區(qū)間一一映射到單一的值。離散化過程也被表述成分箱(Binning)的過程骇扇。特...
簡介 本文主要說明特征工程中關(guān)于序數(shù)特征和類別特征的常用處理方法摔竿。主要包含LabelEncoder、One-Hot編碼少孝、DummyCoding继低、...
簡介 樸素貝葉斯(naive Bayes)算法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。對于給定的訓練數(shù)據(jù)集稍走,首先基于特征條件獨立假設(shè)學習輸...
簡介 在介紹比較復雜的數(shù)據(jù)類型比如圖像和文本數(shù)據(jù)類似之前袁翁,我們首先從最簡單的數(shù)據(jù)類似開始柴底,即:數(shù)值類型。我們收集到的數(shù)據(jù)中粱胜,數(shù)值類型數(shù)據(jù)占據(jù)了大...
前言 上個月參加了微信大數(shù)據(jù)挑戰(zhàn)賽柄驻,由于是第一次參加類似的比賽,并沒有什么經(jīng)驗焙压,最終也沒有進復賽鸿脓。不過在這期間還是學到了很多知識,尤其是特征處理...