機(jī)器學(xué)習(xí)1

什么是機(jī)器學(xué)習(xí)aa

從數(shù)據(jù)集——>模型——>預(yù)測(cè)的一個(gè)過程
數(shù)據(jù)集的構(gòu)成：特征值(feature) + 目標(biāo)值(target)

機(jī)器學(xué)習(xí)算法的分類

-監(jiān)督學(xué)習(xí)(有目標(biāo)值)：
1.目標(biāo)值為類別-分類問題：k-近鄰算法、貝葉斯分類、決策樹與隨機(jī)森林窄绒、邏輯回歸
2.目標(biāo)值為連續(xù)的數(shù)據(jù)-回歸問題：線性回歸、嶺回歸
-無(wú)監(jiān)督學(xué)習(xí)(沒有目標(biāo)值)：聚類 k-means

機(jī)器學(xué)習(xí)的開發(fā)流程

獲取數(shù)據(jù)->處理數(shù)據(jù)->特征工程->機(jī)器學(xué)習(xí)的算法訓(xùn)練->模型評(píng)估->應(yīng)用

數(shù)據(jù)集介紹

學(xué)習(xí)階段可使用的數(shù)據(jù)集：sklearn林艘，kaggle，uci(我們這里使用的是sklearn)

sklearn數(shù)據(jù)集

 #!/usr/bin/env python3
 sklearn.dataset.load_*：#獲取小規(guī)模的數(shù)據(jù)集
 #如：sklearn.dataset.load_iris()
 sklearn.dataset.fetch_*：#獲取大規(guī)模的數(shù)據(jù)集
 #如：sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)

獲取數(shù)據(jù)集的返回值

sklearn.dataset.Bunch #繼承自字典
dict['key'] = value
Bunch.key = value

數(shù)據(jù)集的劃分

訓(xùn)練數(shù)據(jù)：用于訓(xùn)練，構(gòu)建模型
測(cè)試數(shù)據(jù)集：在模型檢驗(yàn)時(shí)使用植康，用于判斷模型是否正確(20%~30%)

x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(arrays, *options)

特征工程

pands做數(shù)據(jù)處理彤灶，數(shù)據(jù)清洗
sklearn做特征工程

特征提取

字典類型的特征提取

如下使用sklearn中的字典類型的轉(zhuǎn)換器返回的是one-hot編碼

sklearn.feature_extraction.DictVectorizer(sparse=True,…)
data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
    # 1看幼、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = DictVectorizer(sparse=True)

    # 2、調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray(), type(data_new))
    print("特征名字：\n", transfer.get_feature_names())

data_new是ndarray類型

文本類型的特征提取

-CountVectorizer
統(tǒng)計(jì)文本中每個(gè)特征詞出現(xiàn)的個(gè)數(shù)
stop_words標(biāo)識(shí)停詞不計(jì)入統(tǒng)計(jì)

data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1幌陕、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = CountVectorizer(stop_words=["is", "too"])

    # 2诵姜、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字：\n", transfer.get_feature_names())

-TfidfVectorizer
表示特征詞的重要程度
TF：詞頻
IDF：逆向文檔頻率

 # 將中文文本進(jìn)行分詞  aa
    data = ["text"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # print(data_new)
    # 1、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = TfidfVectorizer(stop_words=["一種", "所以"])

    # 2搏熄、調(diào)用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_new:\n", data_final.toarray())
    print("特征名字：\n", transfer.get_feature_names())

特征預(yù)處理

無(wú)量綱化
主要就是將一些比較大的數(shù)值全部轉(zhuǎn)化為某個(gè)區(qū)間的數(shù)值
-歸一化(用的較少容易受到一些異常值的影響)

# 1棚唆、獲取數(shù)據(jù)
    data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3]
    print("data:\n", data)

    # 2、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = MinMaxScaler(feature_range=[2, 3])

    # 3心例、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)

-標(biāo)準(zhǔn)化(用的較多宵凌，使用的標(biāo)準(zhǔn)差計(jì)算不容易受到異常值得影響表示集中程度)

data = pd.read_csv("dating.txt")
    data = data.iloc[:, :3]
    print("data:\n", data)

    # 2、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = StandardScaler()

    # 3止后、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)

特征降維

通常數(shù)據(jù)都是多維的瞎惫，不利于處理溜腐，降維就是盡量減少數(shù)據(jù)的特征數(shù)得到一組‘不相關(guān)’的主變量過程，就是降低隨機(jī)變量的個(gè)數(shù)

-Filter過濾式
方差選擇法：低方差特征過濾
相關(guān)系數(shù)-特征與特征的相關(guān)程度

# 1瓜喇、獲取數(shù)據(jù)
    data = pd.read_csv("factor_returns.csv")
    data = data.iloc[:, 1:-2]
    print("data:\n", data)

    # 2挺益、實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer = VarianceThreshold(threshold=10)

    # 3、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new, data_new.shape)

    # 計(jì)算某兩個(gè)變量之間的相關(guān)系數(shù)
    r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
    print("相關(guān)系數(shù)：\n", r1)
    r2 = pearsonr(data['revenue'], data['total_expense'])
    print("revenue與total_expense之間的相關(guān)性：\n", r2)

皮爾遜相關(guān)系數(shù)：
-1 < r < 1 r靠近0則相關(guān)性小靠近-1則呈現(xiàn)負(fù)相關(guān) +1反之
如果特征與特征之間相關(guān)性很高
選取其中一個(gè)
加權(quán)求和
主成分分析

-Embeded嵌入式
決策樹(后面提到)
正則化(后面提到)
深度學(xué)習(xí)(后面提到)

主成分分析

PCA降維

sklearn.decomposition.PCA(n_components=None)

n_components屬性：
如果是小數(shù)則表示保留百分之多少的信息
如果是整數(shù)則表示減少到多少特征

最后編輯于：2019.12.09 22:41:47

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末乘寒，一起剝皮案震驚了整個(gè)濱河市望众，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌伞辛，老刑警劉巖黍檩，帶你破解...
沈念sama閱讀 222,627評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異始锚，居然都是意外死亡刽酱，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,180評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門瞧捌，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)棵里，“玉大人，你說(shuō)我怎么就攤上這事姐呐〉盍” “怎么了？”我有些...
開封第一講書人閱讀 169,346評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵曙砂，是天一觀的道長(zhǎng)头谜。經(jīng)常有香客問我，道長(zhǎng)鸠澈，這世上最難降的妖魔是什么柱告？我笑而不...
開封第一講書人閱讀 60,097評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮笑陈，結(jié)果婚禮上际度，老公的妹妹穿的比我還像新娘。我一直安慰自己涵妥，他們只是感情好乖菱，可當(dāng)我...
茶點(diǎn)故事閱讀 69,100評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蓬网，像睡著了一般窒所。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上帆锋，一...
開封第一講書人閱讀 52,696評(píng)論 1贊 312
城市分裂傳說(shuō)
那天吵取，我揣著相機(jī)與錄音，去河邊找鬼窟坐。笑死海渊，一個(gè)胖子當(dāng)著我的面吹牛绵疲，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播臣疑，決...
沈念sama閱讀 41,165評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼盔憨，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了讯沈？” 一聲冷哼從身側(cè)響起郁岩，我...
開封第一講書人閱讀 40,108評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎缺狠，沒想到半個(gè)月后问慎，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,646評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡挤茄，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,709評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年如叼，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片穷劈。...
茶點(diǎn)故事閱讀 40,861評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡笼恰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出歇终，到底是詐尸還是另有隱情社证，我是刑警寧澤，帶...
沈念sama閱讀 36,527評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布评凝，位于F島的核電站追葡，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏奕短。R本人自食惡果不足惜宜肉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,196評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望篡诽。院中可真熱鬧崖飘，春花似錦、人聲如沸杈女。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,698評(píng)論 0贊 25
一樁弒父案吊圾，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)达椰。三九已至，卻和暖如春项乒，著一層夾襖步出監(jiān)牢的瞬間啰劲，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,804評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工檀何，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝇裤，地道東北人廷支。一個(gè)月前我還...
沈念sama閱讀 49,287評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像栓辜，于是被迫代替她去往敵國(guó)和親恋拍。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,860評(píng)論 2贊 361