Pandas 教程 — 電影數(shù)據(jù)是干凈的嗎(2)

Pandas 中除了對數(shù)據(jù)進行 刪除膜楷、去重,以達到數(shù)據(jù)清洗的目的贞奋,同時為了滿足更多的計算需求赌厅,增加新列也是很常見的操作。

如果邏輯關(guān)系比較簡單轿塔,可以直接對 Pandas 的兩列進行操作得到新的一列特愿,比如:

movie_pd['total_score'] = movie_pd['vote_count'] * movie_pd['score']

更一般的方法是使用 for 循環(huán),對 Pandas 的某一列或多列進行處理后勾缭,得到新的一列揍障。

比如需要根據(jù)電影的評分增加電影評分等級 movie_level 新列 ,評分小于 7.5 分的等級是 B俩由,7.5 到 9.0 之間的是 A毒嫡,9.0 以上的是 S,寫法如下:

import pandas as pd

movie_pd = pd.read_csv('douban_movie.csv', header=0, sep='\t')
movie_level_list = list()
for i in movie_pd.index:
    score = movie_pd.loc[i, 'score']
    if score < 7.5:
        movie_level = 'B'
    elif 7.5 <= score < 9.0:
        movie_level = 'A'
    else:
        movie_level = 'S'
    movie_level_list.append(movie_level)
movie_pd['movie_level'] = pd.Series(movie_level_list)
print movie_pd[['score', 'movie_level']].head()

建議先新建一個列表 movie_level_list幻梯,在 for 循環(huán)中依次處理完后添加到列表中兜畸,然后使用 pd.Series 的方式添加新列即可。

部分輸出如下:

score    movie_level
0    9.5           S
1    9.3           S
2    9.3           S
3    8.8           A
4    8.8           A

當(dāng)然碘梢,每次都用 for 循環(huán)添加新列的話咬摇,難免有些繁瑣,接下來介紹 2 個非常好用的函數(shù)煞躬,讓你在 Pandas 中添加新列只需要一行代碼肛鹏。

  • map( ) 函數(shù):參數(shù)中可以傳入字典,也可以使用 lambda 表達式

比如 is_playable 字段在 Pandas 中的值是 True/False

增加一列中文的新列恩沛,True 對應(yīng)的值為 可以播放在扰,F(xiàn)alse 對應(yīng)的值為 不能播放,寫法如下:

movie_pd['playable_ch'] = movie_pd['is_playable'].map({True: '可以播放', False: '不能播放'})

直接傳入字典 {True: '可以播放', False: '不能播放'} 進去即可复唤。

又比如電影評分 9.0 以上才我想看的健田,增加一列 want_watch,1 表示想看佛纫,0 表示不想看

movie_pd['want_watch'] = movie_pd['score'].map(lambda x: 1 if x >= 9.0 else 0)

使用 lambda 表達式妓局,其中的 x 就相當(dāng)于 for 循環(huán)時每次的 score 值总放。

接下來看一個具體的例子,根據(jù)電影的上映日期 release_date 和 評論人數(shù) vote_count好爬,計算每部電影每天的平均評價人數(shù)局雄,代碼如下:

movie_pd['release_date'] = pd.to_datetime(movie_pd['release_date'])
movie_pd['total_day'] = movie_pd['release_date'].map(lambda x: (datetime.now() - x).total_seconds() / (3600 * 24))
movie_pd['daily_vote'] = movie_pd['vote_count'] / movie_pd['total_day']
print movie_pd[['release_date', 'total_day', 'vote_count', 'daily_vote']].head()

首先,使用 to_datetime( ) 函數(shù)將 字符串類型 轉(zhuǎn)化為日期存炮;

然后使用 map( ) 函數(shù)計算電影上映日期距離現(xiàn)在的時間差炬搭,并轉(zhuǎn)化為天數(shù);

最后穆桂,vote_count 和 total_day 兩列直接相除得到 每部電影每天的平均評價人數(shù)宫盔。

結(jié)果如下:

 release_date    total_day    vote_count  daily_vote
0   1993-01-01    9081.478783      629403   69.306224
1   2016-06-19     511.478783       13516   26.425339
2   2017-01-22     294.478783         739    2.509519
3   1997-05-30     7471.478783      240127   32.139153
4   1993-08-04     8866.478783      133193   15.022085

  • cut( ) 函數(shù):完美解決根據(jù)變量值劃分區(qū)間的問題

剛開始對電影評級的問題,現(xiàn)在可以這么寫:

movie_pd['movie_level'] =  pd.cut(movie_pd['score'], bins = [0, 7.5, 9.0, float('Inf')], labels = ['B', 'A', 'S'], right = False)

bins 參數(shù)為一個列表享完,表示劃分區(qū)間的臨界值灼芭,labels 為不同區(qū)間對應(yīng)的值,right = False 表示前必后開般又,默認(rèn)為 前開后必彼绷,所以最終的區(qū)間為:[0, 7.5) 對應(yīng)值為 B,[7.5,9.0) 對應(yīng)值為 A茴迁,9.0 及以上對應(yīng)值為 S寄悯,float('Inf') 表示正無窮大。

劃重點:

  • map( ) : 參數(shù)可以傳入字典 或 使用 lambda 表達式
  • to_datetime( ):將 字符串類型 轉(zhuǎn)化為 日期類型
  • cut( ) : 對數(shù)值型變量劃分區(qū)間
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堕义,一起剝皮案震驚了整個濱河市猜旬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌倦卖,老刑警劉巖昔馋,帶你破解...
    沈念sama閱讀 223,207評論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異糖耸,居然都是意外死亡秘遏,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評論 3 400
  • 文/潘曉璐 我一進店門嘉竟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來邦危,“玉大人,你說我怎么就攤上這事舍扰【腧剑” “怎么了?”我有些...
    開封第一講書人閱讀 170,031評論 0 366
  • 文/不壞的土叔 我叫張陵边苹,是天一觀的道長陵且。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么慕购? 我笑而不...
    開封第一講書人閱讀 60,334評論 1 300
  • 正文 為了忘掉前任聊疲,我火速辦了婚禮,結(jié)果婚禮上沪悲,老公的妹妹穿的比我還像新娘获洲。我一直安慰自己,他們只是感情好殿如,可當(dāng)我...
    茶點故事閱讀 69,322評論 6 398
  • 文/花漫 我一把揭開白布贡珊。 她就那樣靜靜地躺著,像睡著了一般涉馁。 火紅的嫁衣襯著肌膚如雪门岔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,895評論 1 314
  • 那天烤送,我揣著相機與錄音固歪,去河邊找鬼。 笑死胯努,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的逢防。 我是一名探鬼主播叶沛,決...
    沈念sama閱讀 41,300評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼忘朝!你這毒婦竟也來了灰署?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評論 0 277
  • 序言:老撾萬榮一對情侶失蹤局嘁,失蹤者是張志新(化名)和其女友劉穎溉箕,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悦昵,經(jīng)...
    沈念sama閱讀 46,784評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡肴茄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,870評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了但指。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寡痰。...
    茶點故事閱讀 40,989評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖棋凳,靈堂內(nèi)的尸體忽然破棺而出拦坠,到底是詐尸還是另有隱情,我是刑警寧澤剩岳,帶...
    沈念sama閱讀 36,649評論 5 351
  • 正文 年R本政府宣布贞滨,位于F島的核電站,受9級特大地震影響拍棕,放射性物質(zhì)發(fā)生泄漏晓铆。R本人自食惡果不足惜勺良,卻給世界環(huán)境...
    茶點故事閱讀 42,331評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望尤蒿。 院中可真熱鬧郑气,春花似錦、人聲如沸腰池。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽示弓。三九已至讳侨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間奏属,已是汗流浹背跨跨。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評論 1 275
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留囱皿,地道東北人勇婴。 一個月前我還...
    沈念sama閱讀 49,452評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像嘱腥,于是被迫代替她去往敵國和親耕渴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,995評論 2 361

推薦閱讀更多精彩內(nèi)容