(python)隨機(jī)抽樣

隨機(jī)抽樣法就是調(diào)查對(duì)象總體中每個(gè)部分都有同等被抽中的可能,是一種完全依照機(jī)會(huì)均等的原則進(jìn)行的抽樣調(diào)查,被稱為是一種“等概率”.隨機(jī)抽樣有四種基本形式,即簡(jiǎn)單隨機(jī)抽樣捧灰、等距抽樣箫荡、類型抽樣和整群抽樣.

非隨機(jī)抽樣的定義:指抽樣時(shí)不是遵循隨機(jī)原則,而是按照研究人員的主觀經(jīng)驗(yàn)或其它條件來(lái)抽取樣本的一種抽樣方法.

關(guān)于抽樣更詳細(xì)介紹的方法參見(jiàn)概率抽樣棚赔,隨機(jī)采樣恋昼。

python當(dāng)中實(shí)現(xiàn)簡(jiǎn)單隨機(jī)抽樣的方法有:自己純編寫(xiě)代碼(不方便);利用庫(kù)pandas或者numpy摔桦。

此處,我用的是pandas承疲。詳細(xì)代碼如下:

欠抽樣代碼

pandas 實(shí)現(xiàn)隨機(jī)抽樣邻耕,其中一些參數(shù)

df.sample(n=None, frac=None, replace=False, weights=None, random_state=None,axis=None)

n:指定抽取的樣本量,(這里我設(shè)定的是小類數(shù)據(jù)的1.05,即 n = N*(1+0.05))

frac:指定抽取的樣本比例燕鸽;

replace:是否有放回抽樣兄世,默認(rèn)無(wú)放回。(對(duì)于不平衡數(shù)據(jù)欠抽樣時(shí)啊研,將replace=False)

weights:指定樣本抽中的概率御滩,默認(rèn)等概論抽樣;

random_state:指定抽樣的隨機(jī)種子党远,可以使得每次抽樣的種子一樣削解,每次抽樣結(jié)果一樣

axis:是選擇抽取數(shù)據(jù)的行還是列。axis=0的時(shí)是抽取行沟娱,axis=1時(shí)是抽取列

局限: 對(duì)于多類樣本不能很好的進(jìn)行抽樣氛驮。

解決:對(duì)于不平衡數(shù)據(jù),使用imblearn庫(kù)中的函數(shù)完成隨機(jī)過(guò)采樣济似,隨機(jī)欠采樣矫废。

需要注意的一點(diǎn)

1. pandas中的df是dataframe類型,它包含了所處理數(shù)據(jù)的特征和類砰蠢。其中每一行代表一個(gè)instance蓖扑,每一列代表一個(gè)feature,而最后一列往往是類標(biāo)簽娩脾。上述是一般情況赵誓,具體類標(biāo)簽在第一列還是最后一列打毛,取決于你所得到的數(shù)據(jù)集是什么樣的柿赊。當(dāng)然,也可以根據(jù)自己的需要和習(xí)慣幻枉,將類標(biāo)簽放置在相應(yīng)的位置碰声。

2. 針對(duì)不平衡的數(shù)據(jù),要實(shí)現(xiàn)欠抽樣時(shí)熬甫,只需將replace=False,并只對(duì)大類樣本進(jìn)行抽樣胰挑。要實(shí)現(xiàn)過(guò)抽樣,相應(yīng)的將repalce=True,并只對(duì)小類樣本進(jìn)行過(guò)抽樣。最后將兩類樣本合并即可瞻颂。

還有一種方法更為簡(jiǎn)單豺谈,因?yàn)橛玫搅薸mblearn庫(kù)中的方法。如果你沒(méi)有安裝這個(gè)庫(kù)贡这,可以參考怎么用python安裝第三方庫(kù)Imblearn茬末,其中這個(gè)庫(kù)中包含了針對(duì)不平衡數(shù)據(jù)的一些抽樣方法,具體的也可以參考imblearn的官網(wǎng)盖矫。

首先丽惭,先導(dǎo)入庫(kù):

導(dǎo)入庫(kù)的代碼

第二步,調(diào)用其中庫(kù)的方法:

抽樣方法代碼

上述方法分別是 隨機(jī)過(guò)抽樣辈双、隨機(jī)欠抽樣责掏、smote抽樣。具體的參數(shù)可以參見(jiàn)官網(wǎng):imblearn庫(kù)的相關(guān)參數(shù)湃望。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載换衬,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末证芭,一起剝皮案震驚了整個(gè)濱河市冗疮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌檩帐,老刑警劉巖术幔,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異湃密,居然都是意外死亡诅挑,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)泛源,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拔妥,“玉大人,你說(shuō)我怎么就攤上這事达箍∶涣” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵缎玫,是天一觀的道長(zhǎng)硬纤。 經(jīng)常有香客問(wèn)我,道長(zhǎng)赃磨,這世上最難降的妖魔是什么筝家? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮邻辉,結(jié)果婚禮上溪王,老公的妹妹穿的比我還像新娘腮鞍。我一直安慰自己,他們只是感情好莹菱,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布移国。 她就那樣靜靜地躺著,像睡著了一般道伟。 火紅的嫁衣襯著肌膚如雪桥狡。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,337評(píng)論 1 310
  • 那天皱卓,我揣著相機(jī)與錄音裹芝,去河邊找鬼。 笑死娜汁,一個(gè)胖子當(dāng)著我的面吹牛嫂易,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播掐禁,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼怜械,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了傅事?” 一聲冷哼從身側(cè)響起缕允,我...
    開(kāi)封第一講書(shū)人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蹭越,沒(méi)想到半個(gè)月后障本,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡响鹃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年驾霜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片买置。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡粪糙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出忿项,到底是詐尸還是另有隱情蓉冈,我是刑警寧澤,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布轩触,位于F島的核電站寞酿,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏怕膛。R本人自食惡果不足惜熟嫩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一秦踪、第九天 我趴在偏房一處隱蔽的房頂上張望褐捻。 院中可真熱鬧掸茅,春花似錦、人聲如沸柠逞。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)板壮。三九已至逗鸣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绰精,已是汗流浹背撒璧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留笨使,地道東北人卿樱。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像硫椰,于是被迫代替她去往敵國(guó)和親繁调。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容