本文同步更新于這兒
最近牙疼锄开,疼到睡不著的那種。每晚總得深夜起來称诗,喝上幾口涼水萍悴,摸黑找出一片甲硝唑含上,到陽臺(tái)站上一會(huì)兒寓免,繼續(xù)感受著隱隱陣痛癣诱。
夜已深。整個(gè)城市有一種褪色的沉淀感袜香,周圍很安靜撕予,聽不見白日里的嘈雜聲。這地界也算得上是在上海市區(qū)吧蜈首,附近的高層住宅樓依稀閃著幾點(diǎn)亮光实抡,然而在光污染的影響下,它們?cè)陂冱S色的天空背景下并不起眼欢策。我知道吆寨,那是還沒有入睡的人們。
我有點(diǎn)好奇踩寇,那些燈火下映射的人啄清,他們是誰,他們又在做什么俺孙?我決意去了解一下
于是辣卒,我開始寫代碼QAQ
方法也比較干脆,通過分析微博同城的信息睛榄,看看大家的動(dòng)態(tài)荣茫。俗話說<爬蟲寫得好,牢飯吃到飽>懈费,這次寫的爬蟲簡(jiǎn)單至極计露,沒有并發(fā)請(qǐng)求,沒有用代理憎乙,甚至連請(qǐng)求頭都是一成不變。
幾天下來叉趣,我獲取了超過100萬條上海本地的微博數(shù)據(jù)泞边,去重并篩選出在凌晨發(fā)的之后數(shù)據(jù)里少了很多(如無特殊說明,本文凌晨均指0點(diǎn)-5點(diǎn))疗杉,因?yàn)檫@些都是公開數(shù)據(jù)阵谚,這邊放上來應(yīng)該也無礙蚕礼。
首先看一下性別,女性竟然是男性的三倍梢什,是不是說女性更容易熬夜奠蹬。
當(dāng)然,其實(shí)這很大程度上是由于微博上女性用戶數(shù)量多于男性的緣故嗡午。通過計(jì)算各性別用戶在凌晨發(fā)博數(shù)據(jù)在全天的占比囤躁,發(fā)現(xiàn),女性的比值為9.3%,男性為8.7%荔睹,相差并不大狸演。所以說,不管是男性還是女性僻他,都有不睡覺的理由宵距。
我們?cè)倏聪掳l(fā)博時(shí)間的統(tǒng)計(jì),很明顯吨拗,凌晨0點(diǎn)到1點(diǎn)的人數(shù)最多满哪,可能那時(shí)對(duì)年輕人來說時(shí)候還早,夜生活才剛剛開始劝篷。
隨著夜色入深哨鸭,大部分人還是會(huì)向睡眠妥協(xié),但終究還是有修仙黨戰(zhàn)勝了睡眠携龟,凌晨4點(diǎn)發(fā)博的人仍占到了5%兔跌。5點(diǎn)時(shí)段的人數(shù)比4點(diǎn)略有回升,環(huán)比增長(zhǎng)8個(gè)百分點(diǎn)峡蟋,估計(jì)是有人已經(jīng)起早干活了吧坟桅。
當(dāng)然,相比以上這些蕊蝗,我更關(guān)心他們?cè)诹璩繒r(shí)段究竟在做什么仅乓,于是采用了基于 TF-IDF 算法的關(guān)鍵詞抽取,對(duì)每條微博提取出10個(gè)關(guān)鍵詞蓬戚,繪制出詞云(看↓夸楣,福爾摩斯)
幾個(gè)權(quán)重比較大的詞(自己、上海子漩、開心....)? <自己>的詞頻遠(yuǎn)超其他豫喧。或許在上海這個(gè)快節(jié)奏的都市中幢泼,唯有深夜紧显,才有段時(shí)間是留給自己的吧。
從詞云來看缕棵,大家的都表現(xiàn)得蠻積極的孵班。不過我還是決定再深挖一下涉兽。這里通過paddlepaddle進(jìn)行深度學(xué)習(xí),使用百度的ERNIE+BI-LSTM模型篙程,在ChnSentiCorp數(shù)據(jù)集上fine-tune后對(duì)微博數(shù)據(jù)進(jìn)行情感傾向分析枷畏。(PS.感謝百度AI平臺(tái)提供的16GB顯存的Tesla V100算力卡)
可以看出,有超過70%的狀態(tài)都是積極的虱饿,看來大家都是想起高興的事情拥诡,才睡不著呀。于是郭厌,我便看了看究竟是什么高興的事袋倔。
我覺得可還行。
不過折柠,也有人喜歡在深夜的時(shí)候吐露負(fù)面情緒宾娜,或許夜深人靜更清醒,于是更絕望
絕望向左,希望向右承冰!希望大家都能好好的华弓!
綜合地看了下,表現(xiàn)為消極的微博比重較多的為情感問題困乒,而情感傾向?yàn)榉e極的微博<吃>相關(guān)的記錄所占的也是相當(dāng)多寂屏。
喝酒吃串串,快活似神仙
在深夜里娜搂,人們不睡覺時(shí)最惦記著誰呢迁霎,家人,朋友百宇,還是對(duì)象考廉? 這些在深夜時(shí)分的碎碎念,可能代表了人們情感中最溫暖和柔軟的部分:
最后統(tǒng)計(jì)了把用戶信息携御,絕大部分都是和你我一樣的普通人昌粤,也不乏有個(gè)別大V在其中。
我不太想寫太多諸如在大城市的人啄刹,人生艱難涮坐,生活無奈的話,畢竟在這些不睡覺的人里誓军,有許多都是因?yàn)橛虚_心的事情膊升,或者對(duì)第二天的期待而無法入睡的。
當(dāng)然也會(huì)有不開心的時(shí)候谭企,有輾轉(zhuǎn)反側(cè)廓译,有難以入眠,有濃烈的孤獨(dú)债查,有不甘和委屈在被窩里留下的淚非区,有睜著眼睛到天亮,這些盹廷,一直會(huì)有征绸,也永遠(yuǎn)會(huì)有,但天亮的時(shí)候俄占,我們又迎來了新的一天管怠。
最后,記住一點(diǎn)缸榄,年輕人渤弛,少熬夜,以及 保護(hù)好牙齒甚带。
PS.
受<我研究了一下北京凌晨不睡覺的人們>啟發(fā)
關(guān)于程序她肯,為了
不暴露自己拙劣的編程水平保護(hù)部分隱私信息,這里暫不貼出來了鹰贵。后續(xù)可能會(huì)寫篇文章記錄下晴氨,大概率會(huì)咕。涉及技術(shù)棧及開源框架:scrapy爬蟲框架碉输、手機(jī)網(wǎng)絡(luò)請(qǐng)求抓包籽前、jieba分詞、paddlepaddle深度學(xué)習(xí)框架敷钾、wordcloud詞云枝哄、阿里DataV數(shù)據(jù)可視化平臺(tái)、亞馬遜QuickSight BI系統(tǒng)闰非。
blog:個(gè)人博客