鏈家數(shù)據(jù)分析二-數(shù)據(jù)分組處理

關(guān)于
? 學(xué)習(xí)日月光華老師的《Python數(shù)據(jù)分析從入門到機(jī)器學(xué)習(xí)》洼怔,通過(guò)寫該文來(lái)鞏固數(shù)據(jù)分析中使用的知識(shí)點(diǎn)。
主要是針對(duì)鏈家的數(shù)據(jù)進(jìn)行各個(gè)不同方向的分析又官,本文是第二篇,針對(duì)數(shù)據(jù)中各個(gè)房源成交單價(jià)及其總價(jià)的分析延刘。
準(zhǔn)備
工具 :Anaconda、juyter notebook
類庫(kù):numpy六敬、pandas碘赖、matplotlib
分析及代碼實(shí)現(xiàn)
? 首先接上一篇,先讀入整個(gè)的數(shù)據(jù)外构,代碼實(shí)現(xiàn)如下:

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline

data_list = []

for i in range(1, 8):
    try:
        data = pd.read_csv('C:\\Users\\nash.wan\\Desktop\\lianjia\\lianjia{}.csv'.format(i), encoding='GBK')
    except:
        data = pd.read_csv('C:\\Users\\nash.wan\\Desktop\\lianjia\\lianjia{}.csv'.format(i))
    finally:
        data_list.append(data)
data = pd.concat(data_list)

??數(shù)據(jù)分組處理普泡,我通過(guò)每個(gè)版塊里面每個(gè)經(jīng)紀(jì)人成交總價(jià)和每個(gè)版塊里面成交單價(jià)的前5名兩個(gè)方面來(lái)介紹。

?一审编,每個(gè)版塊里面每個(gè)經(jīng)紀(jì)人成交總價(jià)撼班,

我們要對(duì)成交總價(jià)進(jìn)行分析,首先先查看一個(gè)cjzongjia這個(gè)參數(shù)的類型垒酬,如下:
image.png
,從上面可知砰嘁,類型為float64件炉,可以直接進(jìn)行計(jì)算。如下矮湘,對(duì)cjzongjia進(jìn)行去除缺省值斟冕,并且去除cjzongjia為0的數(shù)據(jù)
data.dropna(subset = ['cjzongjia'], inplace = True)  //去除cjzongjia缺省的行數(shù)據(jù)
data = data[~data['cjzongjia'].isin([0])]  //去除cjzongjia中為0的數(shù)據(jù)

? ? 涉及知識(shí)點(diǎn):
? ? ?pandas.Series.isin(values):判斷values(為list)值是否在Series中,返回bool dtype
接下來(lái)缅阳,對(duì)數(shù)據(jù)按照‘bankuai’和‘xingming’進(jìn)行分組宫静,如下,返回一個(gè)object對(duì)象

image.png
對(duì)每個(gè)板塊經(jīng)紀(jì)人的cjzongjia進(jìn)行求和券时,具體的實(shí)現(xiàn)如下

data.groupby(by = ['bankuai', 'xingming'])['cjzongjia'].agg('sum')

? ? 涉及知識(shí)點(diǎn):
? ? ?DataFrame.groupby分組計(jì)算
? ? ? ? 1.DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False,observed=False)
? ? ? ? ? by:按照什么來(lái)分組孤里,可以是list
? ? ? ? 2.agg() 可以使用自定義函數(shù)和內(nèi)置函數(shù),比如data.groupby(['bankuai', 'xingming']).agg({'cjdanjia':fun, 'cjzongjia':'max'})(fun為自定義函數(shù))橘洞,可以針對(duì)每一列進(jìn)行函數(shù)計(jì)算,只能返回一個(gè)標(biāo)量值捌袜。
結(jié)算結(jié)果如下:

image.png
?二、每個(gè)版塊里面成交單價(jià)的前5名
對(duì)每個(gè)版塊的成交前5名進(jìn)行分析炸枣,首先對(duì)cjdanjia進(jìn)行預(yù)處理虏等,通過(guò)
image.png
可以看出cjdanjia為object型,我們需要對(duì)其進(jìn)行處理适肠,如下

data.dropna(subset = ['cjdanjia'], inplace = True) //去除缺省值
data['cjdanjia'] = data.cjdanjia.map(lambda x: float(x.replace('元/平', ''))) //轉(zhuǎn)化類型

下面霍衫,我們就可以對(duì)其按照bankuai進(jìn)行分組,并且取每個(gè)版塊中cjdanjia的top5侯养,具體實(shí)現(xiàn)如下:

def top5(group, n=5):
    return group.sort_values(by = ['cjdanjia'], ascending = False)[:n] //自定義函數(shù)敦跌,返回cjdanjia的top5
data.groupby(['bankuai']).apply(top5, 5) //計(jì)算得出結(jié)果

部分結(jié)果如下圖:

image.png
? ? 涉及知識(shí)點(diǎn):
? ? ?DataFrame.groupby對(duì)象的apply()方法:是一個(gè)更一般化的方法,將一個(gè)數(shù)據(jù)分拆-應(yīng)用-匯總逛揩,跟agg()主要區(qū)別就是apply()不僅僅返回一個(gè)標(biāo)量值柠傍,可以返回多個(gè)或者其他類型。
總結(jié)
? 到目前為止辩稽,對(duì)版塊的每個(gè)經(jīng)紀(jì)人成交總價(jià)和單價(jià)的top5分析到此為止已經(jīng)分析完畢惧笛。
未完,后面寫會(huì)針對(duì)其他的方向?qū)︽溂覕?shù)據(jù)進(jìn)行分析逞泄。

如果對(duì)您有點(diǎn)幫助的話患整,麻煩您給點(diǎn)個(gè)贊,謝謝喷众。

鏈家數(shù)據(jù)分析一--數(shù)據(jù)離散化處理:鏈家數(shù)據(jù)分析一--數(shù)據(jù)離散化處理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末各谚,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子侮腹,更是在濱河造成了極大的恐慌嘲碧,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,681評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件父阻,死亡現(xiàn)場(chǎng)離奇詭異愈涩,居然都是意外死亡望抽,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門履婉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)煤篙,“玉大人,你說(shuō)我怎么就攤上這事毁腿〖危” “怎么了?”我有些...
    開封第一講書人閱讀 169,421評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵已烤,是天一觀的道長(zhǎng)鸠窗。 經(jīng)常有香客問(wèn)我,道長(zhǎng)胯究,這世上最難降的妖魔是什么稍计? 我笑而不...
    開封第一講書人閱讀 60,114評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮裕循,結(jié)果婚禮上臣嚣,老公的妹妹穿的比我還像新娘。我一直安慰自己剥哑,他們只是感情好硅则,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,116評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著株婴,像睡著了一般怎虫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上督暂,一...
    開封第一講書人閱讀 52,713評(píng)論 1 312
  • 那天揪垄,我揣著相機(jī)與錄音,去河邊找鬼逻翁。 笑死,一個(gè)胖子當(dāng)著我的面吹牛捡鱼,可吹牛的內(nèi)容都是我干的八回。 我是一名探鬼主播,決...
    沈念sama閱讀 41,170評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼驾诈,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缠诅!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起乍迄,我...
    開封第一講書人閱讀 40,116評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤管引,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后闯两,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體褥伴,經(jīng)...
    沈念sama閱讀 46,651評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谅将,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,714評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了重慢。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片饥臂。...
    茶點(diǎn)故事閱讀 40,865評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖似踱,靈堂內(nèi)的尸體忽然破棺而出隅熙,到底是詐尸還是另有隱情,我是刑警寧澤核芽,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布囚戚,位于F島的核電站,受9級(jí)特大地震影響轧简,放射性物質(zhì)發(fā)生泄漏弯淘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,211評(píng)論 3 336
  • 文/蒙蒙 一吉懊、第九天 我趴在偏房一處隱蔽的房頂上張望庐橙。 院中可真熱鬧,春花似錦借嗽、人聲如沸态鳖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)浆竭。三九已至,卻和暖如春惨寿,著一層夾襖步出監(jiān)牢的瞬間邦泄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工裂垦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留顺囊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,299評(píng)論 3 379
  • 正文 我出身青樓蕉拢,卻偏偏與公主長(zhǎng)得像特碳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子晕换,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,870評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容