Pandas 教程 — 電影數(shù)據(jù)是干凈的嗎(2)

Pandas 中除了對數(shù)據(jù)進行 刪除膜楷、去重，以達到數(shù)據(jù)清洗的目的贞奋，同時為了滿足更多的計算需求赌厅，增加新列也是很常見的操作。

如果邏輯關(guān)系比較簡單轿塔，可以直接對 Pandas 的兩列進行操作得到新的一列特愿，比如：

movie_pd['total_score'] = movie_pd['vote_count'] * movie_pd['score']

更一般的方法是使用 for 循環(huán)，對 Pandas 的某一列或多列進行處理后勾缭，得到新的一列揍障。

比如需要根據(jù)電影的評分增加電影評分等級 movie_level 新列，評分小于 7.5 分的等級是 B俩由，7.5 到 9.0 之間的是 A毒嫡，9.0 以上的是 S，寫法如下：

import pandas as pd

movie_pd = pd.read_csv('douban_movie.csv', header=0, sep='\t')
movie_level_list = list()
for i in movie_pd.index:
    score = movie_pd.loc[i, 'score']
    if score < 7.5:
        movie_level = 'B'
    elif 7.5 <= score < 9.0:
        movie_level = 'A'
    else:
        movie_level = 'S'
    movie_level_list.append(movie_level)
movie_pd['movie_level'] = pd.Series(movie_level_list)
print movie_pd[['score', 'movie_level']].head()

建議先新建一個列表 movie_level_list幻梯，在 for 循環(huán)中依次處理完后添加到列表中兜畸，然后使用 pd.Series 的方式添加新列即可。

部分輸出如下：

score    movie_level
0    9.5           S
1    9.3           S
2    9.3           S
3    8.8           A
4    8.8           A

當(dāng)然碘梢，每次都用 for 循環(huán)添加新列的話咬摇，難免有些繁瑣，接下來介紹 2 個非常好用的函數(shù)煞躬，讓你在 Pandas 中添加新列只需要一行代碼肛鹏。

map( ) 函數(shù)：參數(shù)中可以傳入字典，也可以使用 lambda 表達式

比如 is_playable 字段在 Pandas 中的值是 True/False

增加一列中文的新列恩沛，True 對應(yīng)的值為可以播放在扰，F(xiàn)alse 對應(yīng)的值為不能播放，寫法如下：

movie_pd['playable_ch'] = movie_pd['is_playable'].map({True: '可以播放', False: '不能播放'})

直接傳入字典 {True: '可以播放', False: '不能播放'} 進去即可复唤。

又比如電影評分 9.0 以上才我想看的健田，增加一列 want_watch，1 表示想看佛纫，0 表示不想看

movie_pd['want_watch'] = movie_pd['score'].map(lambda x: 1 if x >= 9.0 else 0)

使用 lambda 表達式妓局，其中的 x 就相當(dāng)于 for 循環(huán)時每次的 score 值总放。

接下來看一個具體的例子，根據(jù)電影的上映日期 release_date 和評論人數(shù) vote_count好爬，計算每部電影每天的平均評價人數(shù)局雄，代碼如下：

movie_pd['release_date'] = pd.to_datetime(movie_pd['release_date'])
movie_pd['total_day'] = movie_pd['release_date'].map(lambda x: (datetime.now() - x).total_seconds() / (3600 * 24))
movie_pd['daily_vote'] = movie_pd['vote_count'] / movie_pd['total_day']
print movie_pd[['release_date', 'total_day', 'vote_count', 'daily_vote']].head()

首先，使用 to_datetime( ) 函數(shù)將字符串類型轉(zhuǎn)化為日期存炮；

然后使用 map( ) 函數(shù)計算電影上映日期距離現(xiàn)在的時間差炬搭，并轉(zhuǎn)化為天數(shù)；

最后穆桂，vote_count 和 total_day 兩列直接相除得到每部電影每天的平均評價人數(shù)宫盔。

結(jié)果如下：

 release_date    total_day    vote_count  daily_vote
0   1993-01-01    9081.478783      629403   69.306224
1   2016-06-19     511.478783       13516   26.425339
2   2017-01-22     294.478783         739    2.509519
3   1997-05-30     7471.478783      240127   32.139153
4   1993-08-04     8866.478783      133193   15.022085

cut( ) 函數(shù)：完美解決根據(jù)變量值劃分區(qū)間的問題

剛開始對電影評級的問題，現(xiàn)在可以這么寫：

movie_pd['movie_level'] =  pd.cut(movie_pd['score'], bins = [0, 7.5, 9.0, float('Inf')], labels = ['B', 'A', 'S'], right = False)

bins 參數(shù)為一個列表享完，表示劃分區(qū)間的臨界值灼芭，labels 為不同區(qū)間對應(yīng)的值，right = False 表示前必后開般又，默認(rèn)為前開后必彼绷，所以最終的區(qū)間為：[0, 7.5) 對應(yīng)值為 B，[7.5,9.0) 對應(yīng)值為 A茴迁，9.0 及以上對應(yīng)值為 S寄悯，float('Inf') 表示正無窮大。

劃重點：

map( ) : 參數(shù)可以傳入字典或使用 lambda 表達式
to_datetime( )：將字符串類型轉(zhuǎn)化為日期類型
cut( ) : 對數(shù)值型變量劃分區(qū)間

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末堕义，一起剝皮案震驚了整個濱河市猜旬，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌倦卖，老刑警劉巖昔馋，帶你破解...
沈念sama閱讀 223,207評論 6贊 521
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異糖耸，居然都是意外死亡秘遏，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,455評論 3贊 400
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門嘉竟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來邦危，“玉大人，你說我怎么就攤上這事舍扰【腧剑” “怎么了？”我有些...
開封第一講書人閱讀 170,031評論 0贊 366
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵边苹，是天一觀的道長陵且。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么慕购？我笑而不...
開封第一講書人閱讀 60,334評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任聊疲，我火速辦了婚禮，結(jié)果婚禮上沪悲，老公的妹妹穿的比我還像新娘获洲。我一直安慰自己，他們只是感情好殿如，可當(dāng)我...
茶點故事閱讀 69,322評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布贡珊。她就那樣靜靜地躺著，像睡著了一般涉馁。火紅的嫁衣襯著肌膚如雪门岔。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,895評論 1贊 314
城市分裂傳說
那天烤送，我揣著相機與錄音固歪，去河邊找鬼。笑死胯努，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的逢防。我是一名探鬼主播叶沛，決...
沈念sama閱讀 41,300評論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼忘朝！你這毒婦竟也來了灰署？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,264評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤局嘁，失蹤者是張志新（化名）和其女友劉穎溉箕，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悦昵，經(jīng)...
沈念sama閱讀 46,784評論 1贊 321
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡肴茄，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,870評論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了但指。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寡痰。...
茶點故事閱讀 40,989評論 1贊 354
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖棋凳，靈堂內(nèi)的尸體忽然破棺而出拦坠，到底是詐尸還是另有隱情，我是刑警寧澤剩岳，帶...
沈念sama閱讀 36,649評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贞滨，位于F島的核電站，受9級特大地震影響拍棕，放射性物質(zhì)發(fā)生泄漏晓铆。R本人自食惡果不足惜勺良，卻給世界環(huán)境...
茶點故事閱讀 42,331評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望尤蒿。院中可真熱鬧郑气，春花似錦、人聲如沸腰池。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,814評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽示弓。三九已至讳侨，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間奏属，已是汗流浹背跨跨。一陣腳步聲響...
開封第一講書人閱讀 33,940評論 1贊 275
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留囱皿，地道東北人勇婴。一個月前我還...
沈念sama閱讀 49,452評論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長得像嘱腥，于是被迫代替她去往敵國和親耕渴。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,995評論 2贊 361

Pandas 教程 — 電影數(shù)據(jù)是干凈的嗎(2)

推薦閱讀更多精彩內(nèi)容