機(jī)器學(xué)習(xí)1

什么是機(jī)器學(xué)習(xí)aa

從數(shù)據(jù)集——>模型——>預(yù)測(cè)的一個(gè)過程
數(shù)據(jù)集的構(gòu)成:特征值(feature) + 目標(biāo)值(target)

機(jī)器學(xué)習(xí)算法的分類

-監(jiān)督學(xué)習(xí)(有目標(biāo)值):
1.目標(biāo)值為類別-分類問題:k-近鄰算法、貝葉斯分類、決策樹與隨機(jī)森林窄绒、邏輯回歸
2.目標(biāo)值為連續(xù)的數(shù)據(jù)-回歸問題:線性回歸、嶺回歸
-無(wú)監(jiān)督學(xué)習(xí)(沒有目標(biāo)值):聚類 k-means

機(jī)器學(xué)習(xí)的開發(fā)流程

獲取數(shù)據(jù)->處理數(shù)據(jù)->特征工程->機(jī)器學(xué)習(xí)的算法訓(xùn)練->模型評(píng)估->應(yīng)用

數(shù)據(jù)集介紹

學(xué)習(xí)階段可使用的數(shù)據(jù)集:sklearn林艘,kaggle,uci(我們這里使用的是sklearn)

sklearn數(shù)據(jù)集

 #!/usr/bin/env python3
 sklearn.dataset.load_*:#獲取小規(guī)模的數(shù)據(jù)集
 #如:sklearn.dataset.load_iris()
 sklearn.dataset.fetch_*:#獲取大規(guī)模的數(shù)據(jù)集
 #如:sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)

獲取數(shù)據(jù)集的返回值

sklearn.dataset.Bunch #繼承自字典
dict['key'] = value
Bunch.key = value

數(shù)據(jù)集的劃分

訓(xùn)練數(shù)據(jù):用于訓(xùn)練,構(gòu)建模型
測(cè)試數(shù)據(jù)集:在模型檢驗(yàn)時(shí)使用植康,用于判斷模型是否正確(20%~30%)

x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(arrays, *options)

特征工程

pands做數(shù)據(jù)處理彤灶,數(shù)據(jù)清洗
sklearn做特征工程

特征提取

字典類型的特征提取

如下使用sklearn中的字典類型的轉(zhuǎn)換器返回的是one-hot編碼

sklearn.feature_extraction.DictVectorizer(sparse=True,…)
data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
    # 1看幼、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = DictVectorizer(sparse=True)

    # 2、調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray(), type(data_new))
    print("特征名字:\n", transfer.get_feature_names())

data_new是ndarray類型

文本類型的特征提取

-CountVectorizer
統(tǒng)計(jì)文本中每個(gè)特征詞出現(xiàn)的個(gè)數(shù)
stop_words標(biāo)識(shí)停詞不計(jì)入統(tǒng)計(jì)

data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1幌陕、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = CountVectorizer(stop_words=["is", "too"])

    # 2诵姜、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字:\n", transfer.get_feature_names())

-TfidfVectorizer
表示特征詞的重要程度
TF:詞頻
IDF:逆向文檔頻率

 # 將中文文本進(jìn)行分詞  aa
    data = ["text"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # print(data_new)
    # 1、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = TfidfVectorizer(stop_words=["一種", "所以"])

    # 2搏熄、調(diào)用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_new:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())

特征預(yù)處理

無(wú)量綱化
主要就是將一些比較大的數(shù)值全部轉(zhuǎn)化為某個(gè)區(qū)間的數(shù)值
-歸一化(用的較少容易受到一些異常值的影響)

# 1棚唆、獲取數(shù)據(jù)
    data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3]
    print("data:\n", data)

    # 2、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = MinMaxScaler(feature_range=[2, 3])

    # 3心例、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)

-標(biāo)準(zhǔn)化(用的較多宵凌,使用的標(biāo)準(zhǔn)差計(jì)算不容易受到異常值得影響表示集中程度)

data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3]
    print("data:\n", data)

    # 2、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = StandardScaler()

    # 3止后、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)

特征降維

通常數(shù)據(jù)都是多維的瞎惫,不利于處理溜腐,降維就是盡量減少數(shù)據(jù)的特征數(shù)得到一組‘不相關(guān)’的主變量過程,就是降低隨機(jī)變量的個(gè)數(shù)

-Filter過濾式
方差選擇法:低方差特征過濾
相關(guān)系數(shù)-特征與特征的相關(guān)程度

# 1瓜喇、獲取數(shù)據(jù)
    data = pd.read_csv("factor_returns.csv")
    data = data.iloc[:, 1:-2]
    print("data:\n", data)

    # 2挺益、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = VarianceThreshold(threshold=10)

    # 3、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new, data_new.shape)

    # 計(jì)算某兩個(gè)變量之間的相關(guān)系數(shù)
    r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
    print("相關(guān)系數(shù):\n", r1)
    r2 = pearsonr(data['revenue'], data['total_expense'])
    print("revenue與total_expense之間的相關(guān)性:\n", r2)

皮爾遜相關(guān)系數(shù):
-1 < r < 1 r靠近0則相關(guān)性小 靠近-1則呈現(xiàn)負(fù)相關(guān) +1反之
如果特征與特征之間相關(guān)性很高
選取其中一個(gè)
加權(quán)求和
主成分分析

-Embeded嵌入式
決策樹(后面提到)
正則化(后面提到)
深度學(xué)習(xí)(后面提到)

主成分分析

PCA降維

sklearn.decomposition.PCA(n_components=None)

n_components屬性:
如果是小數(shù)則表示保留百分之多少的信息
如果是整數(shù)則表示減少到多少特征

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末乘寒,一起剝皮案震驚了整個(gè)濱河市望众,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伞辛,老刑警劉巖黍檩,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異始锚,居然都是意外死亡刽酱,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門瞧捌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)棵里,“玉大人,你說(shuō)我怎么就攤上這事姐呐〉盍” “怎么了?”我有些...
    開封第一講書人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵曙砂,是天一觀的道長(zhǎng)头谜。 經(jīng)常有香客問我,道長(zhǎng)鸠澈,這世上最難降的妖魔是什么柱告? 我笑而不...
    開封第一講書人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮笑陈,結(jié)果婚禮上际度,老公的妹妹穿的比我還像新娘。我一直安慰自己涵妥,他們只是感情好乖菱,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蓬网,像睡著了一般窒所。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上帆锋,一...
    開封第一講書人閱讀 52,696評(píng)論 1 312
  • 那天吵取,我揣著相機(jī)與錄音,去河邊找鬼窟坐。 笑死海渊,一個(gè)胖子當(dāng)著我的面吹牛绵疲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播臣疑,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼盔憨,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了讯沈?” 一聲冷哼從身側(cè)響起郁岩,我...
    開封第一講書人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎缺狠,沒想到半個(gè)月后问慎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡挤茄,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年如叼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片穷劈。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡笼恰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出歇终,到底是詐尸還是另有隱情社证,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布评凝,位于F島的核電站追葡,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏奕短。R本人自食惡果不足惜宜肉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望篡诽。 院中可真熱鬧崖飘,春花似錦、人聲如沸杈女。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)达椰。三九已至,卻和暖如春项乒,著一層夾襖步出監(jiān)牢的瞬間啰劲,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工檀何, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝇裤,地道東北人廷支。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像栓辜,于是被迫代替她去往敵國(guó)和親恋拍。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容