嗶哩嗶哩日排行榜數(shù)據(jù)分析

一:數(shù)據(jù)來源

數(shù)據(jù)集為2019年九月至今的嗶哩嗶哩 日視頻排行榜數(shù)據(jù)信息犹撒,通過Python爬蟲采集奶段,具體采集過程見:WebBiliapi
共近兩萬條視頻數(shù)據(jù)购撼,每一行數(shù)據(jù)集共23個(gè)字段名:

  • aid :視頻編號(hào) cid:彈幕編號(hào) href:視頻鏈接
  • times:時(shí)間 weeks:星期 dates:日期 rank:排名
  • score:評(píng)分 title:標(biāo)題 tname:類型 owner:up主
  • ownid:作者編號(hào) owurl:作者url ctime:發(fā)布時(shí)間
  • views:觀看人數(shù) likes:喜歡人數(shù) reply:回復(fù)人數(shù)
  • favou:收藏人數(shù) coins:投幣人數(shù) share:分享人數(shù)
  • length:視頻長(zhǎng)度 imgurl:視頻封面鏈接地址

二:提出問題

1 :整體視頻的分布情況
???????類型分布(占有率多少)悍及、視頻評(píng)分區(qū)間、視頻發(fā)布時(shí)間段
???????時(shí)長(zhǎng)分布、視頻 UP主霸榜情況

2 :用戶行為轉(zhuǎn)化成漏斗
???????喜歡-評(píng)論-收藏-投幣各環(huán)節(jié)轉(zhuǎn)換率如何
3 :排名和評(píng)分高的視頻有什么特征
4 :基于時(shí)間維度了解視頻發(fā)布情況


三:數(shù)據(jù)清洗

  1. ctime時(shí)間戳改為標(biāo)準(zhǔn)日期格式
ALTER TABLE Video ADD release_time VARCHAR(20) NOT NULL 
AFTER ctime;  
UPDATE Video SET release_time = ctime;  
UPDATE Video SET release_time=REPLACE(release_time,release_time,
FROM_UNIXTIME(date));  


2.由于數(shù)據(jù)采集程序一天執(zhí)行兩遍,為的是選取單個(gè)視頻當(dāng)日最大評(píng)分信息。所以在分析前需要進(jìn)行清洗來確保單日內(nèi)aid的唯一性焊虏,保留評(píng)分最高的行。

SELECT * FROM Video_copy a WHERE NOT EXISTS(
SELECT 1 FROM Video_copy WHERE aid=a.aid AND dates=a.dates
AND score<a.score)


四:模型構(gòu)建和分析問題

1.總體視頻分布情況

  • 類型分布
SELECT tname,COUNT(tname) AS counts FROM Video
GROUP BY tname 
ORDER BY counts DESC
  • 評(píng)分分布
SELECT scores,COUNT(scores) from 
(SELECT Ceiling(score/10000) AS scores FROM Video) a 
GROUP BY scores ORDER BY COUNT(scores) DESC
  • 發(fā)布時(shí)間段與時(shí)長(zhǎng)分布


  • 總UP主數(shù)
SELECT COUNT(DISTINCT ownid) AS 總用戶數(shù) FROM Video
  • UP霸榜排名
SELECT owner,COUNT(owner) FROM Video 
GROUP BY owner
ORDER BY COUNT(owner) DESC 
  • UP主復(fù)榜率:上榜兩次或兩次以上的UP主占中UP主的比例
SELECT CONCAT(ROUND(COUNT(*)/(
SELECT COUNT(*) FROM Video),2)*100,'%') 
FROM( SELECT owner,COUNT(owner) AS counts 
FROM Videos GROUP BY owner HAVING COUNT(owner) >2 
ORDER BY counts DESC) as b

>>>4%
  • UP主得分情況總覽:
CREATE VIEW Owner_info AS
SELECT owner,SUM(views) AS 觀看,SUM(likes) 
AS 喜歡,SUM(share) AS 評(píng)論,SUM(favou) 
AS 收藏,SUM(coins) AS 投幣,sum(score) AS 總分,CEILING(SUM(score)/COUNT(owner)) AS 均分 
FROM Videos GROUP BY owner ORDER BY 均分 DESC;
SELECT * FROM Owner_info

2.用戶行為轉(zhuǎn)化率
在觀看完視頻后秕磷,用戶行為之間的轉(zhuǎn)換也是一個(gè)很好的衡量標(biāo)準(zhǔn)诵闭。得到用戶行為各環(huán)節(jié)轉(zhuǎn)化率,如下:

CREATE VIEW Owner_pere AS
SELECT owner,
CONCAT(ROUND(喜歡/觀看,4)*100,'%') 
AS 喜歡_觀看比,
CONCAT(ROUND(收藏/觀看,4)*100,'%')
AS 收藏_觀看比,
CONCAT(ROUND(分享/觀看,4)*100,'%')
AS 分享_觀看比,
CONCAT(ROUND(投幣/觀看,4)*100,'%')
AS 投幣_(tái)觀看比,
均分
FROM Owner_info;
SELECT  * FROM Owner_pere;

總體上均分靠前的澎嚣,喜歡觀看疏尿、投幣觀看轉(zhuǎn)換比較高
3.從時(shí)間維度來分析視頻分布情況


下午是高分視頻的頻發(fā)期,而一般視頻大體會(huì)在1-5分鐘 易桃。視頻下午發(fā)布后褥琐,受眾無論是上班族還是學(xué)生黨回到家里時(shí)都可以第一時(shí)間接收到推送 。而視頻時(shí)間的短小也符合社會(huì)流行快視頻的趨勢(shì)晤郑。

五 :總結(jié)

1 在嗶哩嗶哩日排行榜中敌呈,視頻集中產(chǎn)生于下午3-5點(diǎn)中,且短視頻居多 造寝。視頻主要類型為日常磕洪、搞笑、美食诫龙、電子競(jìng)技等青少年關(guān)注的圈子析显,與嗶哩嗶哩受眾有很大關(guān)系
2 視頻分?jǐn)?shù)受喜歡、投幣數(shù)影響作用大签赃,且受UP主熱度影響谷异,其它因素不是很明顯。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末锦聊,一起剝皮案震驚了整個(gè)濱河市歹嘹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌孔庭,老刑警劉巖尺上,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異史飞,居然都是意外死亡尖昏,警方通過查閱死者的電腦和手機(jī)仰税,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門构资,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人陨簇,你說我怎么就攤上這事吐绵〖L剩” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵己单,是天一觀的道長(zhǎng)唉窃。 經(jīng)常有香客問我,道長(zhǎng)纹笼,這世上最難降的妖魔是什么纹份? 我笑而不...
    開封第一講書人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮廷痘,結(jié)果婚禮上蔓涧,老公的妹妹穿的比我還像新娘。我一直安慰自己笋额,他們只是感情好元暴,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著兄猩,像睡著了一般茉盏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上枢冤,一...
    開封第一講書人閱讀 49,760評(píng)論 1 289
  • 那天鸠姨,我揣著相機(jī)與錄音,去河邊找鬼淹真。 笑死享怀,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的趟咆。 我是一名探鬼主播添瓷,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼值纱!你這毒婦竟也來了鳞贷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤虐唠,失蹤者是張志新(化名)和其女友劉穎搀愧,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疆偿,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡咱筛,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杆故。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片迅箩。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖处铛,靈堂內(nèi)的尸體忽然破棺而出饲趋,到底是詐尸還是另有隱情拐揭,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布奕塑,位于F島的核電站堂污,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏龄砰。R本人自食惡果不足惜盟猖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望换棚。 院中可真熱鬧扒披,春花似錦、人聲如沸圃泡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽颇蜡。三九已至价说,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間风秤,已是汗流浹背鳖目。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缤弦,地道東北人领迈。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像碍沐,于是被迫代替她去往敵國和親狸捅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348