《利用Python進行數(shù)據(jù)分析》 14.2 MovieLens 1M數(shù)據(jù)集

第十四章數(shù)據(jù)分析示例

注：本章示例數(shù)據(jù)集可在附帶的GitHub倉庫（http://github.com/wesm/pydata-book）中找到

14.2 MovieLens 1M數(shù)據(jù)集

?????? GroupLens實驗室（http://www.grouplens.org/node/73）提供了一些從MovieLens用戶那里收集的20世紀90年代末和21世紀初的電影評分數(shù)據(jù)的集合。這些數(shù)據(jù)提供了電影的評分唬渗、電影的元數(shù)據(jù)（流派和年份）以及觀眾數(shù)據(jù)（年齡扩然、郵編闸英、性別、職業(yè)）彩倚。這些數(shù)據(jù)通常會用于基于機器學(xué)習(xí)算法的推薦系統(tǒng)開發(fā)滩援，雖然我們不會在本書中詳細探討機器學(xué)習(xí)技術(shù)，但我會向你展示如何將這些數(shù)據(jù)集切片并切成你需要的確切形式辉懒。

?????? MovieLens 1M數(shù)據(jù)集包含6,000個用戶對4,000部電影的100萬個評分。數(shù)據(jù)分布在三個表格中：評分谍失，用戶信息和電影信息眶俩。

1.從ZIP文件中提取數(shù)據(jù)后，我們可以使用pandas.read_table將每個表加載到一個pandas DataFrame對象中快鱼。（見圖14-1）

圖14-1：使用pandas.read_table加載

2.通過使用Python的切片語法來查看每個DataFrame的前幾行來驗證一切是否成功（見圖14-2颠印、14-3）

圖14-2：使用切片查驗

圖14-3：查驗

注：年齡和職業(yè)被編碼為整數(shù)，這些表示了數(shù)據(jù)集的README文件所描述的分組抹竹。

3.合并數(shù)據(jù)集

?????? 跨越三個表格分析數(shù)據(jù)并不是一件簡單的事情线罕，例如，假設(shè)你想按性別和年齡計算某個電影的平均評分窃判。正如你將看到的钞楼，將所有表格合并到單個表中會更容易。使用pandas的合并功能袄琳，我們首先將ratings表與users表合并窿凤，然后將該結(jié)果與movies表數(shù)據(jù)合并。pandas根據(jù)重疊名稱推斷哪些列用作合并的（或連接）鍵位（見圖14-4）

圖14-4：合并數(shù)據(jù)集

4.為了獲得按性別分級的每部電影的平均電影評分跨蟹，我們可以使用pivot_table方法（見圖14-5）

圖14-5：獲取按性別分級的平均電影評分

注：上面的代碼產(chǎn)生了另一個DataFrame，其中包含電影標題作為行標簽（“索引”）和性別作為列標簽的平均評分橘沥。

5.首先過濾掉少于250（完全隨意定的數(shù)字）個評分的電影

?????? 為此窗轩，我接著按標題對數(shù)據(jù)進行分組，并使用size()為每個標題獲取一個元素是各分組大小的Series（見圖14-6）

圖14-6：過濾

6.評分多于250個的電影標題的索引之后可以用于從mean_ratings中選出所需的行（見圖14-8）

圖14-8：選取評分多于250個的電影

7.看女性觀眾的top電影座咆，我們可以按F列降序排序（見圖14-9）

圖14-9：女性觀眾top榜

14.2.1 測量評價分歧

?1.找到男性和女性觀眾之間最具分歧性的電影痢艺。

一種方法是添加一列到含有均值差的mean_ratings中仓洼，然后按以下方式排序（見圖14-9、14-10）

圖14-9：女性首選的評分差異電影排名

圖14-10：男性首選的評分差異電影排名

2.假設(shè)你想要的是不依賴于性別標識而在觀眾中引起最大異議的電影堤舒。異議可以通過評分的方差或標準差來衡量（見圖14-11）

圖14-11：不依賴于性別標識異議最大的電影排名

注：電影流派是以管道分隔（|）字符串的形式給出的色建。如果你想按流派做一些分析，需要做更多的工作來將流派信息轉(zhuǎn)化為更有用的形式

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末舌缤，一起剝皮案震驚了整個濱河市箕戳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌国撵，老刑警劉巖陵吸，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異介牙，居然都是意外死亡壮虫，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門环础，熙熙樓的掌柜王于貴愁眉苦臉地迎上來囚似，“玉大人，你說我怎么就攤上這事线得∪幕剑” “怎么了？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵框都，是天一觀的道長搬素。經(jīng)常有香客問我，道長魏保，這世上最難降的妖魔是什么熬尺？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮谓罗，結(jié)果婚禮上粱哼，老公的妹妹穿的比我還像新娘。我一直安慰自己檩咱，他們只是感情好揭措，可當我...
茶點故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著刻蚯，像睡著了一般绊含。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上炊汹，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天躬充，我揣著相機與錄音，去河邊找鬼。笑死充甚，一個胖子當著我的面吹牛以政，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播伴找，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼盈蛮，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了技矮？” 一聲冷哼從身側(cè)響起抖誉，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎穆役，沒想到半個月后寸五，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡耿币，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年梳杏，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片淹接。...
茶點故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡十性，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出塑悼，到底是詐尸還是另有隱情劲适，我是刑警寧澤，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布厢蒜，位于F島的核電站霞势，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏斑鸦。R本人自食惡果不足惜愕贡，卻給世界環(huán)境...
茶點故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望巷屿。院中可真熱鬧固以，春花似錦、人聲如沸嘱巾。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽旬昭。三九已至篙螟，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間问拘，已是汗流浹背闲擦。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工慢味，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人墅冷。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像或油，于是被迫代替她去往敵國和親寞忿。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,864評論 2贊 354

《利用Python進行數(shù)據(jù)分析》 14.2 MovieLens 1M數(shù)據(jù)集

第十四章 數(shù)據(jù)分析示例

14.2 MovieLens 1M數(shù)據(jù)集

14.2.1 測量評價分歧

推薦閱讀更多精彩內(nèi)容

第十四章數(shù)據(jù)分析示例