一、Sklearn介紹
scikit-learn是Python語言開發(fā)的機(jī)器學(xué)習(xí)庫,一般簡稱為sklearn九昧,目前算是通用機(jī)器學(xué)習(xí)算法庫中實現(xiàn)得比較完善的庫了。其完善之處不僅在于實現(xiàn)的算法多毕匀,還包括大量詳盡的文檔和示例铸鹰。其文檔寫得通俗易懂,完全可以當(dāng)成機(jī)器學(xué)習(xí)的教程來學(xué)習(xí)皂岔。
二蹋笼、Sklearn數(shù)據(jù)集種類
sklearn 的數(shù)據(jù)集有好多個種
- 自帶的小數(shù)據(jù)集(packaged dataset):sklearn.datasets.load_<name>
- 可在線下載的數(shù)據(jù)集(Downloaded Dataset):sklearn.datasets.fetch_<name>
- 計算機(jī)生成的數(shù)據(jù)集(Generated Dataset):sklearn.datasets.make_<name>
- svmlight/libsvm格式的數(shù)據(jù)集:sklearn.datasets.load_svmlight_file(...)
- 從買了data.org在線下載獲取的數(shù)據(jù)集:sklearn.datasets.fetch_mldata(...)
三、Sklearn數(shù)據(jù)集
1.有關(guān)數(shù)據(jù)集的工具類
clearn_data_home 清空指定目錄
get_data_home 獲取sklearn數(shù)據(jù)根目錄
load_files 加載類目數(shù)據(jù)
dump_svmlight_file 轉(zhuǎn)化文件格式為svmlight/libsvm
load_svmlight_file 加載文件并進(jìn)行格式轉(zhuǎn)換
load_svmlight_files 加載文件并進(jìn)行格式轉(zhuǎn)換
2.有關(guān)文本分類聚類數(shù)據(jù)集
fetch_20newsgroups 新聞文本分類數(shù)據(jù)集
fetch_20newsgroups_vectorized 新聞文本向量化數(shù)據(jù)集
fetch_rcv1 路透社英文新聞文本分類數(shù)據(jù)集
有關(guān)人臉識別的數(shù)據(jù)集
fetch_lfw_pairs 人臉數(shù)據(jù)集
fetch_lfw_people 人臉數(shù)據(jù)集
fetch_olivetti_faces 人臉數(shù)據(jù)集
3.有關(guān)圖像的數(shù)據(jù)集
load_sample_image 圖像數(shù)據(jù)集
load_sample_images 圖像數(shù)據(jù)集
load_digits 手寫體數(shù)據(jù)集
4.有關(guān)醫(yī)學(xué)的數(shù)據(jù)集
load_breast_cancer 乳腺癌數(shù)據(jù)集
load_diabetes 糖尿病數(shù)據(jù)集
load_linnerud 體能訓(xùn)練數(shù)據(jù)集
5.其他數(shù)據(jù)集
load_wine 葡萄酒數(shù)據(jù)集
load_iris 鳶尾花數(shù)據(jù)集
load_boston 波士頓房屋數(shù)據(jù)集
fetch_california_housing 加利福尼亞房屋數(shù)據(jù)集
fetch_kddcup99 入侵檢測數(shù)據(jù)集
fetch_species_distribution 物種分布數(shù)據(jù)集
fetch_covtype 森林植被數(shù)據(jù)集
load_mldata mldata.org 在線下載的數(shù)據(jù)集