《利用Python進行數(shù)據(jù)分析》 14.2 MovieLens 1M數(shù)據(jù)集

第十四章 數(shù)據(jù)分析示例

:本章示例數(shù)據(jù)集可在附帶的GitHub倉庫(http://github.com/wesm/pydata-book)中找到


14.2 MovieLens 1M數(shù)據(jù)集

?????? GroupLens實驗室(http://www.grouplens.org/node/73)提供了一些從MovieLens用戶那里收集的20世紀90年代末和21世紀初的電影評分數(shù)據(jù)的集合。這些數(shù)據(jù)提供了電影的評分唬渗、電影的元數(shù)據(jù)(流派和年份)以及觀眾數(shù)據(jù)(年齡扩然、郵編闸英、性別、職業(yè))彩倚。這些數(shù)據(jù)通常會用于基于機器學(xué)習(xí)算法的推薦系統(tǒng)開發(fā)滩援,雖然我們不會在本書中詳細探討機器學(xué)習(xí)技術(shù),但我會向你展示如何將這些數(shù)據(jù)集切片并切成你需要的確切形式辉懒。

?????? MovieLens 1M數(shù)據(jù)集包含6,000個用戶對4,000部電影的100萬個評分。數(shù)據(jù)分布在三個表格中:評分谍失,用戶信息和電影信息眶俩。

1.從ZIP文件中提取數(shù)據(jù)后,我們可以使用pandas.read_table將每個表加載到一個pandas DataFrame對象中快鱼。(見圖14-1)

圖14-1:使用pandas.read_table加載

2.通過使用Python的切片語法來查看每個DataFrame的前幾行來驗證一切是否成功(見圖14-2颠印、14-3)

圖14-2:使用切片查驗
圖14-3:查驗

:年齡和職業(yè)被編碼為整數(shù),這些表示了數(shù)據(jù)集的README文件所描述的分組抹竹。

3.合并數(shù)據(jù)集

?????? 跨越三個表格分析數(shù)據(jù)并不是一件簡單的事情线罕,例如,假設(shè)你想按性別和年齡計算某個電影的平均評分窃判。正如你將看到的钞楼,將所有表格合并到單個表中會更容易。使用pandas的合并功能袄琳,我們首先將ratings表與users表合并窿凤,然后將該結(jié)果與movies表數(shù)據(jù)合并。pandas根據(jù)重疊名稱推斷哪些列用作合并的(或連接)鍵位(見圖14-4)

圖14-4:合并數(shù)據(jù)集

4.為了獲得按性別分級的每部電影的平均電影評分跨蟹,我們可以使用pivot_table方法(見圖14-5)

圖14-5:獲取按性別分級的平均電影評分

:上面的代碼產(chǎn)生了另一個DataFrame,其中包含電影標題作為行標簽(“索引”)和性別作為列標簽的平均評分橘沥。

5.首先過濾掉少于250(完全隨意定的數(shù)字)個評分的電影

?????? 為此窗轩,我接著按標題對數(shù)據(jù)進行分組,并使用size()為每個標題獲取一個元素是各分組大小的Series(見圖14-6)

圖14-6:過濾

6.評分多于250個的電影標題的索引之后可以用于從mean_ratings中選出所需的行(見圖14-8)

圖14-8:選取評分多于250個的電影

7.看女性觀眾的top電影座咆,我們可以按F列降序排序(見圖14-9)

圖14-9:女性觀眾top榜

14.2.1 測量評價分歧

?1.找到男性和女性觀眾之間最具分歧性的電影痢艺。

一種方法是添加一列到含有均值差的mean_ratings中仓洼,然后按以下方式排序(見圖14-9、14-10)

圖14-9:女性首選的評分差異電影排名
圖14-10:男性首選的評分差異電影排名

2.假設(shè)你想要的是不依賴于性別標識而在觀眾中引起最大異議的電影堤舒。異議可以通過評分的方差或標準差來衡量(見圖14-11)

圖14-11:不依賴于性別標識異議最大的電影排名

:電影流派是以管道分隔(|)字符串的形式給出的色建。如果你想按流派做一些分析,需要做更多的工作來將流派信息轉(zhuǎn)化為更有用的形式


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末舌缤,一起剝皮案震驚了整個濱河市箕戳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌国撵,老刑警劉巖陵吸,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異介牙,居然都是意外死亡壮虫,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門环础,熙熙樓的掌柜王于貴愁眉苦臉地迎上來囚似,“玉大人,你說我怎么就攤上這事线得∪幕剑” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵框都,是天一觀的道長搬素。 經(jīng)常有香客問我,道長魏保,這世上最難降的妖魔是什么熬尺? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮谓罗,結(jié)果婚禮上粱哼,老公的妹妹穿的比我還像新娘。我一直安慰自己檩咱,他們只是感情好揭措,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著刻蚯,像睡著了一般绊含。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上炊汹,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天躬充,我揣著相機與錄音,去河邊找鬼。 笑死充甚,一個胖子當著我的面吹牛以政,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播伴找,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼盈蛮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了技矮?” 一聲冷哼從身側(cè)響起抖誉,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎穆役,沒想到半個月后寸五,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡耿币,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年梳杏,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片淹接。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡十性,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出塑悼,到底是詐尸還是另有隱情劲适,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布厢蒜,位于F島的核電站霞势,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏斑鸦。R本人自食惡果不足惜愕贡,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望巷屿。 院中可真熱鬧固以,春花似錦、人聲如沸嘱巾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽旬昭。三九已至篙螟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間问拘,已是汗流浹背闲擦。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工慢味, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人墅冷。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像或油,于是被迫代替她去往敵國和親寞忿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容