介紹
輿情分析基礎(chǔ)知識
隨著互聯(lián)網(wǎng)迅速發(fā)展,社交網(wǎng)絡(luò)發(fā)展為民眾了解社會現(xiàn)象茶宵、輿情事件的重要平臺危纫,帶來便利的同時,部分網(wǎng)民也會在互聯(lián)網(wǎng)上宣泄情感乌庶,引發(fā)公共輿情事件种蝶。為了更好地進行輿情監(jiān)控和情感預(yù)警,把握網(wǎng)民的情感趨向瞒大,基于人類行為動力學(xué)的輿情事件分析螃征,探究輿情對象的情感變化和關(guān)系演化是非常必要的那先。
人類個體行為是隱藏在許多復(fù)雜社會經(jīng)濟現(xiàn)象背后的驅(qū)動力颗胡,定量理解人類行為是現(xiàn)代科學(xué)的一個重要研究課題刃唐。2005年哀峻,Barabási研究顯示人類行為間隔規(guī)律是高度非均勻的鸯绿,稱之服從冪律分布戒突,并在《自然》發(fā)表了一篇文章幕随,開創(chuàng)了“人類行為動力學(xué)”的新研究方向顾瞻。目前泼疑,科學(xué)家通過大量的實證統(tǒng)計發(fā)現(xiàn)了一些人類行為,如郵件通訊荷荤、短信通訊退渗、網(wǎng)頁瀏覽、電影點播蕴纳、微博事件等的時間間隔近似服從冪律分布会油,這種冪律分布特性無論在群體水平還是個體水平上都可以得到證實。除了發(fā)現(xiàn)人類行為的時間間隔分布中廣泛存在的冪律現(xiàn)象外古毛,近年來證實研究發(fā)現(xiàn)在人類的空間運動行為中也存在冪律分布特性翻翩,如停留時間分布和出行距離分布。
-
常見的人類行為動力學(xué)分析包括:時間間隔分布稻薇、活躍性分析嫂冻、時間間隔分布寬度、時間間隔重標度塞椎、交互周期與熱度分析桨仿、交互的陣發(fā)性和記憶性分析等。劉海鷗等老師研究發(fā)現(xiàn)微博案狠、QQ群服傍、天涯論壇钱雷、人人網(wǎng)服從冪律分布如下圖所示,表明在線社交活動少數(shù)人處于活躍狀態(tài)吹零,積極頻繁地發(fā)布消息罩抗,而大部分成員活躍性較低瘪校,處于靜默狀態(tài)阱扬。
20190122135355693.png -
梁曉敏等老師提出了如下圖所示的輿情事件中評論對象的情感及關(guān)系分析模型,并分析了“魏則西事件”的負向情感指數(shù)演化趨勢及關(guān)系網(wǎng)絡(luò)窃蹋。
1.png
2.png
時間間隔分布圖繪制
-
為解釋人類個體為何具有高概率進行長時間停留的特征杀迹,通常會對個體在統(tǒng)計時間段內(nèi)的日呈骼遥活動事件序列進行分析。下圖是一個典型的個體在一周內(nèi)活動的情況厦画,圖中空白區(qū)域表示個體在某地點的停留力试,黑色豎線表示在不同地點的出行懂版。
5.png -
冪律特性分析通常會得到如下圖所示的圖形,而它如何通過Python進行繪制呢丰嘉?
6666.png
數(shù)據(jù)集
- 博主用的是數(shù)據(jù)庫的形式,我用的excel
- 我用excel做了一份簡單的評論數(shù)據(jù)路幸,包括用戶Id简肴,主題用戶,點贊數(shù)量辫狼,評論數(shù)膨处,評論內(nèi)容灵迫,評論時間,積極情緒分數(shù)
代碼
import pandas as pd
import matplotlib.pyplot as plt
# 讀取數(shù)據(jù)
df = pd.read_csv("data1.csv", encoding='GB18030')
# 處理數(shù)據(jù)
data = df.values.tolist()
times = [] # 記錄時間
# score = []
l1 = []
for i in data:
times.append(i[5])
# score.append(i[6])
l1.append(1)
# 設(shè)置高度
plt.subplot(711)
# 生成餅圖
plt.bar(times, l1, color='black')
plt.yticks([])
plt.xticks([])
plt.show()
- 代碼中times用于統(tǒng)計時間,l1用于繪制豎線修噪,生成圖形如下,圖中空白區(qū)域表示個體回復(fù)在某個時刻的停留時間整慎,黑色豎線表示在不同時刻出現(xiàn)了回復(fù)行為撤师,黑色豎線越多剃盾,該時刻的回復(fù)事件越活躍衰伯。
image.png