我沒(méi)有單獨(dú)安裝sklearn,而是使用Anaconda蛔糯,下面是sklearn中自帶數(shù)據(jù)的存放目錄垢袱,前面是我的安裝目錄启搂。
sklearn也可以自己生成數(shù)據(jù)集硼控,我今后涉及到了在研究把刘陶。
D:\ProgramData\Anaconda3\pkgs\scikit-learn-0.19.0-py36h294a771_2\Lib\site-packages\sklearn\datasets\data
調(diào)用方法:
from sklearn.datasets import load_digits
from sklearn.datasets import load_boston
我暫時(shí)只用到這兩個(gè)部分胳赌,其他的數(shù)據(jù)后面改名字就可以了。
下面是sklearn包含的數(shù)據(jù)的截圖匙隔。
下面只介紹大概疑苫,想知道更具體的屬性之類(lèi)的可以跟進(jìn)去看一下源碼
1、boston_house_prices
波士頓房?jī)r(jià)的數(shù)據(jù)纷责,經(jīng)典的回歸任務(wù)的數(shù)據(jù)捍掺。
樣本總數(shù)506
維度13,第14列是target
feature真實(shí)值再膳,正值
target值在5-50之間挺勿。
2、breast_cancer
乳腺癌數(shù)據(jù)喂柒,經(jīng)典的用于二分類(lèi)的數(shù)據(jù)不瓶。
3禾嫉、diabetes_data
糖尿病數(shù)據(jù),回歸數(shù)據(jù)集蚊丐。十個(gè)特征都被處理成0均值熙参,方差歸一化的特征。
4麦备、digits
手寫(xiě)字體識(shí)別孽椰,分類(lèi)數(shù)據(jù),10個(gè)類(lèi)別凛篙。
label10個(gè)類(lèi)別黍匾,0-9。
feature總共64維呛梆,1-64列為feature膀捷,65列為label值。
feature值為0-16的integer削彬。
每一個(gè)數(shù)字離散成8*8的像素塊全庸,64列分別為每一個(gè)塊的亮度。
5融痛、iris
鳶尾花數(shù)據(jù)集壶笼,多分類(lèi)。三中類(lèi)別雁刷,四個(gè)屬性覆劈,每個(gè)屬性50個(gè)樣本,共150個(gè)樣本沛励。
6责语、linnerud
體能訓(xùn)練數(shù)據(jù)集,經(jīng)典的用于多變量回歸任務(wù)的數(shù)據(jù)集目派,其內(nèi)部包含兩個(gè)小數(shù)據(jù)集:Excise是對(duì)3個(gè)訓(xùn)練變量的20次觀測(cè)(體重坤候,腰圍,脈搏)企蹭,physiological是對(duì)3個(gè)生理學(xué)變量的20次觀測(cè)(引體向上白筹,仰臥起坐,立定跳遠(yuǎn))
7谅摄、wine
葡萄酒產(chǎn)地徒河,分類(lèi)數(shù)據(jù),178條數(shù)據(jù)送漠,3個(gè)類(lèi)別顽照。