什么是機(jī)器學(xué)習(xí)aa
從數(shù)據(jù)集——>模型——>預(yù)測(cè)的一個(gè)過程
數(shù)據(jù)集的構(gòu)成:特征值(feature) + 目標(biāo)值(target)
機(jī)器學(xué)習(xí)算法的分類
-監(jiān)督學(xué)習(xí)(有目標(biāo)值):
1.目標(biāo)值為類別-分類問題:k-近鄰算法、貝葉斯分類、決策樹與隨機(jī)森林窄绒、邏輯回歸
2.目標(biāo)值為連續(xù)的數(shù)據(jù)-回歸問題:線性回歸、嶺回歸
-無(wú)監(jiān)督學(xué)習(xí)(沒有目標(biāo)值):聚類 k-means
機(jī)器學(xué)習(xí)的開發(fā)流程
獲取數(shù)據(jù)->處理數(shù)據(jù)->特征工程->機(jī)器學(xué)習(xí)的算法訓(xùn)練->模型評(píng)估->應(yīng)用
數(shù)據(jù)集介紹
學(xué)習(xí)階段可使用的數(shù)據(jù)集:sklearn林艘,kaggle,uci(我們這里使用的是sklearn)
sklearn數(shù)據(jù)集
#!/usr/bin/env python3
sklearn.dataset.load_*:#獲取小規(guī)模的數(shù)據(jù)集
#如:sklearn.dataset.load_iris()
sklearn.dataset.fetch_*:#獲取大規(guī)模的數(shù)據(jù)集
#如:sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
獲取數(shù)據(jù)集的返回值
sklearn.dataset.Bunch #繼承自字典
dict['key'] = value
Bunch.key = value
數(shù)據(jù)集的劃分
訓(xùn)練數(shù)據(jù):用于訓(xùn)練,構(gòu)建模型
測(cè)試數(shù)據(jù)集:在模型檢驗(yàn)時(shí)使用植康,用于判斷模型是否正確(20%~30%)
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(arrays, *options)
特征工程
pands做數(shù)據(jù)處理彤灶,數(shù)據(jù)清洗
sklearn做特征工程
特征提取
字典類型的特征提取
如下使用sklearn中的字典類型的轉(zhuǎn)換器返回的是one-hot編碼
sklearn.feature_extraction.DictVectorizer(sparse=True,…)
data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
# 1看幼、實(shí)例化一個(gè)轉(zhuǎn)換器類
transfer = DictVectorizer(sparse=True)
# 2、調(diào)用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray(), type(data_new))
print("特征名字:\n", transfer.get_feature_names())
data_new是ndarray類型
文本類型的特征提取
-CountVectorizer
統(tǒng)計(jì)文本中每個(gè)特征詞出現(xiàn)的個(gè)數(shù)
stop_words標(biāo)識(shí)停詞不計(jì)入統(tǒng)計(jì)
data = ["life is short,i like like python", "life is too long,i dislike python"]
# 1幌陕、實(shí)例化一個(gè)轉(zhuǎn)換器類
transfer = CountVectorizer(stop_words=["is", "too"])
# 2诵姜、調(diào)用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字:\n", transfer.get_feature_names())
-TfidfVectorizer
表示特征詞的重要程度
TF:詞頻
IDF:逆向文檔頻率
# 將中文文本進(jìn)行分詞 aa
data = ["text"]
data_new = []
for sent in data:
data_new.append(cut_word(sent))
# print(data_new)
# 1、實(shí)例化一個(gè)轉(zhuǎn)換器類
transfer = TfidfVectorizer(stop_words=["一種", "所以"])
# 2搏熄、調(diào)用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字:\n", transfer.get_feature_names())
特征預(yù)處理
無(wú)量綱化
主要就是將一些比較大的數(shù)值全部轉(zhuǎn)化為某個(gè)區(qū)間的數(shù)值
-歸一化(用的較少容易受到一些異常值的影響)
# 1棚唆、獲取數(shù)據(jù)
data = pd.read_csv("dating.txt")
data = data.iloc[:, :3]
print("data:\n", data)
# 2、實(shí)例化一個(gè)轉(zhuǎn)換器類
transfer = MinMaxScaler(feature_range=[2, 3])
# 3心例、調(diào)用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
-標(biāo)準(zhǔn)化(用的較多宵凌,使用的標(biāo)準(zhǔn)差計(jì)算不容易受到異常值得影響表示集中程度)
data = pd.read_csv("dating.txt")
data = data.iloc[:, :3]
print("data:\n", data)
# 2、實(shí)例化一個(gè)轉(zhuǎn)換器類
transfer = StandardScaler()
# 3止后、調(diào)用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
特征降維
通常數(shù)據(jù)都是多維的瞎惫,不利于處理溜腐,降維就是盡量減少數(shù)據(jù)的特征數(shù)得到一組‘不相關(guān)’的主變量過程,就是降低隨機(jī)變量的個(gè)數(shù)
-Filter過濾式
方差選擇法:低方差特征過濾
相關(guān)系數(shù)-特征與特征的相關(guān)程度
# 1瓜喇、獲取數(shù)據(jù)
data = pd.read_csv("factor_returns.csv")
data = data.iloc[:, 1:-2]
print("data:\n", data)
# 2挺益、實(shí)例化一個(gè)轉(zhuǎn)換器類
transfer = VarianceThreshold(threshold=10)
# 3、調(diào)用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new, data_new.shape)
# 計(jì)算某兩個(gè)變量之間的相關(guān)系數(shù)
r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])
print("相關(guān)系數(shù):\n", r1)
r2 = pearsonr(data['revenue'], data['total_expense'])
print("revenue與total_expense之間的相關(guān)性:\n", r2)
皮爾遜相關(guān)系數(shù):
-1 < r < 1 r靠近0則相關(guān)性小 靠近-1則呈現(xiàn)負(fù)相關(guān) +1反之
如果特征與特征之間相關(guān)性很高
選取其中一個(gè)
加權(quán)求和
主成分分析
-Embeded嵌入式
決策樹(后面提到)
正則化(后面提到)
深度學(xué)習(xí)(后面提到)
主成分分析
PCA降維
sklearn.decomposition.PCA(n_components=None)
n_components屬性:
如果是小數(shù)則表示保留百分之多少的信息
如果是整數(shù)則表示減少到多少特征