數(shù)據(jù)集一覽
類型 | 獲取方式 |
---|---|
自帶的小數(shù)據(jù)集 | sklearn.datasets.load_<name> |
在線下載的數(shù)據(jù)集 | sklearn.datasets.fetch_<name> |
計(jì)算機(jī)生成的數(shù)據(jù)集 | sklearn.datasets.make_<name> |
svmlight/libsvm格式的數(shù)據(jù)集 | sklearn.datasets.load_svmlight_file(...) |
mldata.org在線下載數(shù)據(jù)集 | sklearn.datasets.fetch_mldata(...) |
自帶的小數(shù)據(jù)集
返回的是bunch對(duì)象,是字典類型
名稱 | 數(shù)據(jù)包 |
---|---|
鳶尾花數(shù)據(jù)集 | load_iris() |
乳腺癌數(shù)據(jù)集 | load_breast_cancer() |
手寫數(shù)字?jǐn)?shù)據(jù)集 | load_digits() |
糖尿病數(shù)據(jù)集 | load_diabetes() |
波士頓房?jī)r(jià)數(shù)據(jù)集 | load_boston() |
體能訓(xùn)練數(shù)據(jù)集 | load_linnerud() |
圖像數(shù)據(jù)集 | load_sample_image(name) |
鳶尾花數(shù)據(jù)集
下面使用花萼長(zhǎng)度單個(gè)特征來(lái)劃分查看剥汤,這是探索性分析县钥,當(dāng)我們不知道該使用那些特征的時(shí)候,就這樣查看一下省有。
下面使用兩個(gè)特征來(lái)劃分查看
手寫數(shù)字?jǐn)?shù)據(jù)集
圖像數(shù)據(jù)集
在線下載的數(shù)據(jù)集
使用datasets.get_data_home()函數(shù)獲取下載目錄
類型 | 獲取方式 |
---|---|
20類新聞文本數(shù)據(jù)集 | fetch_20newsgroups() / fetch_20newsgroups_vectorized() |
野外帶標(biāo)記人臉數(shù)據(jù)集 | fetch_lfw_people() / fetch_lfw_pairs() |
Olivetti人臉數(shù)據(jù)集 | fetch_olivetti_faces() |
rcvl多標(biāo)簽數(shù)據(jù)集 | fetch_rcvl() |
加利福尼亞房?jī)r(jià)數(shù)據(jù)集 | fetch_canlifornia_housing() |
20類新聞文本數(shù)據(jù)集
包含了關(guān)于20個(gè)話題(topic)的18000條新聞報(bào)道蠢沿,被分為兩個(gè)子集: 訓(xùn)練集和測(cè)試集
函數(shù) | 內(nèi)容 |
---|---|
fetch_20newsgroups() | 原始的文本列表舷蟀,該文本可以被輸入到文本特征提取器sklearn.feature_extraction.text.CountVectorizer進(jìn)一步處理得到特征向量 |
fetch_20newsgroups_vectorized() | 返回一個(gè)直接可以使用的特征面哼,無(wú)須在進(jìn)行特征提取野宜。 |
Olivetti人臉數(shù)據(jù)集
Olivetti人臉數(shù)據(jù)集是AT&T在1992-1994年手機(jī)的人臉數(shù)據(jù)集匈子,包含了40個(gè)不同的目標(biāo)闯袒,每個(gè)目標(biāo)10張圖片游岳,某些目標(biāo)的圖像在不同的時(shí)間段采集其徙,帶有光照,面部表情(眼鏡開閉唾那,笑容),面部襲細(xì)節(jié)的各種變化朗若,所有的人臉圖像被正立的放在一個(gè)灰色的背景上昌罩。
每一張圖像上有256個(gè)灰度級(jí)哭懈,用無(wú)符號(hào)8為來(lái)存茎用。加載函數(shù)會(huì)將所有的圖像轉(zhuǎn)換成[0,1]區(qū)間上的浮點(diǎn)數(shù),目標(biāo)值target存放著0到39的數(shù)字代表人臉的類別標(biāo)簽旭斥。然而每個(gè)標(biāo)簽對(duì)應(yīng)的人臉圖像都只有10張古涧,每張圖像的分辨率是64*64。這個(gè)小數(shù)據(jù)集會(huì)更加適合來(lái)做無(wú)監(jiān)督學(xué)習(xí)或者半監(jiān)督學(xué)習(xí)羡滑。