[Python輿情分析] 二.時間間隔分布研究及冪律分布圖繪制

本文來自這里

冪律分布

在我們的日常生活中Power Law（冪次分布，Power-law Distributions）是常見的一個數(shù)學(xué)模型麻献，如二八原則们妥。這個世界上是20%的人掌握80%的人的金錢去經(jīng)營，20％的人口擁有80％的財富勉吻，20％的上市公司創(chuàng)造了80％的價值监婶，80％的收入來自20％的商品，80％的利潤來自20％的顧客等等餐曼。

為什么會有這樣的差別呢压储？

這是因為時間的乘積效應(yīng)鲜漩，智力上的微弱優(yōu)勢源譬，乘以時間集惋，就會得到價值（財富）幾何級的增長。經(jīng)濟(jì)學(xué)財富分布滿足Pareto Power law tail分布踩娘，語言中有詞頻的冪律分布刮刑，城市規(guī)模和數(shù)量滿足冪律分布，音樂中有f分之1噪音（冪律分布）养渴。通常人們理解冪律分布就是所謂的馬太效應(yīng)雷绢，二八原則，即少數(shù)人聚集了大量的財富理卑，而大多數(shù)人的財富數(shù)量都很小翘紊，因為勝者通吃的原則。

時間間隔分布胖尾圖

核心步驟如下

收集數(shù)據(jù)藐唠，我還是用的excel
對評論時間數(shù)組進(jìn)行排序帆疟，然后依次獲取兩兩評論時間的時間間隔
通過函數(shù)計算myset內(nèi)容的無重復(fù)項，并統(tǒng)計每個時間間隔出現(xiàn)的頻次
最后繪制Pow-low冪律分布圖

代碼

# -*- coding: utf-8 -*-
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
import matplotlib.font_manager

# 讀取數(shù)據(jù)
df = pd.read_csv("data1.csv", encoding='GB18030')
# 處理數(shù)據(jù)
t = df.values.tolist()
PLTimeList = []  # 評論時間列表
Period = []  # 時間間隔
PeriodSeconds = []  # 時間間隔秒
for i in t:
    PLTimeList.append(datetime.strptime(i[5], "%Y-%m-%d %H:%M:%S"))
PLTimeList.sort()  # 時間排序
PLTimeList.reverse()  # 列表中元素反向

# 獲取時間間隔再賦值給列表
for i in range(0, len(PLTimeList) - 1):
    # print(PLTimeList[i])
    cnt = (PLTimeList[i] - PLTimeList[i + 1])
    Period.append(cnt)
# 獲取秒
for i in Period:
    PeriodSeconds.append(i.seconds)

# myset是另外一個列表,里面的內(nèi)容是mylist里面的無重復(fù)項
x = []
y = []
myset = set(PeriodSeconds)
for item in myset:
    x.append(item)
    y.append(PeriodSeconds.count(item))  # 通過已過濾的時間統(tǒng)計之前PeriodSeconds中的出現(xiàn)次數(shù)作為y,為數(shù)量總數(shù)量

# 繪圖顯示中文字體和負(fù)號
plt.rcParams['font.sans-serif'] = ['SimHei']
myfont = matplotlib.font_manager.FontProperties(fname='C:/Windows/Fonts/msyh.ttf')
plt.rcParams['axes.unicode_minus'] = False
font1 = {'family': 'Times New Roman', 'weight': 'normal', 'size': 26}

# plt.subplot(111)
plt.plot(x, y, 'ko')
plt.yscale('log')
plt.ylabel('P', font1)
plt.xlabel('timespan', font1)
plt.xscale('log')
plt.ylim(0.5, 20)
plt.show()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末宇立，一起剝皮案震驚了整個濱河市踪宠，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌妈嘹，老刑警劉巖柳琢，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異润脸，居然都是意外死亡柬脸，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門毙驯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來肖粮，“玉大人，你說我怎么就攤上這事尔苦∩荩” “怎么了？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵允坚，是天一觀的道長魂那。經(jīng)常有香客問我，道長稠项，這世上最難降的妖魔是什么涯雅？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任展运，我火速辦了婚禮活逆，結(jié)果婚禮上精刷，老公的妹妹穿的比我還像新娘。我一直安慰自己蔗候，他們只是感情好怒允，可當(dāng)我...
茶點故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著锈遥，像睡著了一般纫事。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上所灸，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天丽惶，我揣著相機(jī)與錄音，去河邊找鬼爬立。笑死钾唬，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的侠驯。我是一名探鬼主播抡秆，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼陵霉！你這毒婦竟也來了琅轧？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤踊挠，失蹤者是張志新（化名）和其女友劉穎乍桂，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體效床，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡睹酌，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了剩檀。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片憋沿。...
茶點故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖沪猴，靈堂內(nèi)的尸體忽然破棺而出辐啄，到底是詐尸還是另有隱情，我是刑警寧澤运嗜，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布壶辜，位于F島的核電站，受9級特大地震影響担租，放射性物質(zhì)發(fā)生泄漏砸民。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望岭参。院中可真熱鬧反惕，春花似錦、人聲如沸演侯。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蚌本。三九已至盔粹，卻和暖如春隘梨，著一層夾襖步出監(jiān)牢的瞬間程癌，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工轴猎，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留嵌莉，地道東北人。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓捻脖，卻偏偏與公主長得像锐峭，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子可婶，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,092評論 2贊 355

[Python輿情分析] 二.時間間隔分布研究及冪律分布圖繪制

冪律分布

為什么會有這樣的差別呢压储？

時間間隔分布胖尾圖

核心步驟如下

代碼

推薦閱讀更多精彩內(nèi)容