豆瓣某城市戀愛小組八月發(fā)帖分析

最近在家找工作空閑時間比較多限嫌,剛好朋友最近一直在吐槽相親的事情靴庆,就爬了下豆瓣相親小組8月份發(fā)的貼子看看。
思路就是結巴分詞看看大家說的最多的是什么怒医,男女發(fā)帖情況撒穷,回應數(shù),年齡分布

數(shù)據(jù)來源

后裔采集器自動采集(我才不會說爬蟲學習曲線過分陡峭裆熙,太麻煩了。禽笑。入录。呢)
一共1165個記錄。

數(shù)據(jù)處理
#導包
import jieba
import pandas as pd
import re
import collections
#讀數(shù)據(jù)
df = pd.read_csv('C:/Users/Jasmine/Desktop/Learning/相親數(shù)據(jù)集.csv',engine='python')
# 刪除發(fā)帖內容為空的
df.drop(df[df['發(fā)帖內容'].isnull()].index,inplace=True)
# 把發(fā)帖內容的類型轉為字符串佳镜,方便后續(xù)分詞和政策匹配
df['發(fā)帖內容'] = df['發(fā)帖內容'].astype('str')
 # 模式串僚稿,只保留中英文和數(shù)字
patten = r"[^\u4e00-\u9fa5^a-z^A-Z^0-9]" 
#將匹配模式串進行編譯
re_obj = re.compile(patten) 
def clear(text):
    return re_obj.sub('', text) 
df['發(fā)帖內容'] = df['發(fā)帖內容'].apply(clear)
# 用jieba分詞對每一個帖子進行分詞處理
def cut_words(words):
    return jieba.lcut(words)
df['發(fā)帖內容'] = df['發(fā)帖內容'].apply(cut_words)
 #讀取停用詞列表
stop_list = [
    i.strip() for i in open(r'C:\Users\Jasmine\stopwords_zh.txt',encoding='gbk').readlines()
] 
#移除停用詞函數(shù)
def remove_stop(words):  
    texts = []
# 遍歷詞列表里的每一個詞
    for word in words:  
        if word not in stop_list:  # 若不在停用詞列表中就將結果追加至texts列表中
            texts.append(word)
    return texts
df['發(fā)帖內容'] = df['發(fā)帖內容'].apply(remove_stop)
 #將列表元素轉換為字符串,方便后續(xù)統(tǒng)計詞頻
def list_str(content):
    return ' '.join(content) 
df['content'] = df['發(fā)帖內容'].apply(list_str)
# 統(tǒng)計詞頻
text = ''
for s in df['content']:
    text += s
data_cut = ' '.join(jieba.lcut(text))
frequency = collections.Counter(data_cut.split())
#取TOP200的詞
count_list = sorted(frequency.items(), key=lambda x:x[1],reverse=True)
count_list = count_list[:200]
#畫圖
wordcloud = charts.WordCloud()
wordcloud.add('',count_list,word_size_range=[20,100],shape=SymbolType.DIAMOND)
wordcloud.render_notebook()
#查找性別詞
def gender(word):
    text = []
    if "女朋友" in word or "征女" in word or "蒸女" in word:
        text.append("男")
    elif "男朋友" in word or "征男" in word or "蒸男" in word:
        text.append("女")       
    return text
df['性別1'] = df['詳情標題'].apply(gender)
df['性別2'] = df['發(fā)帖內容'].apply(gender)
#正則匹配年齡字符串
pattern = r"[9]\d{1}|[8]\d{1}|[2]\d{1}|[3]\d|[1]\d{3}"
re_obj = re.compile(pattern)
def number(text):
    return re_obj.findall(text) 
df['年齡'] = df['發(fā)帖內容'].apply(number)
#將列表元素轉換為字符串(輸出到excel)
def list_str(content):
    return ' '.join(content)
df['年齡'] = df['年齡'].apply(list_str)
def list_str(content):
    return ' '.join(content)  
數(shù)據(jù)展示

1.總計616個信息有效的帖子蟀伸,其中男性發(fā)帖371蚀同,女性發(fā)帖245,但男性發(fā)帖的回帖數(shù)量低于女性的回帖數(shù)量(女生還是比較內斂kkk)


對比

2.男性年齡分布:30-34歲最多啊掏,25-29次之蠢络,看來男生果然不著急,相親市場25+才是主角迟蜜,但35+的就少多了刹孔,但整體年齡焦慮還比較小(0-19是因為我把沒有年齡信息的帖子都標記為0娜睛,小聲diss相親不寫年齡這種蜜汁操作)


男生年齡分布

3.女生年齡分布:25-29區(qū)間最多髓霞,基本上是第二名30-34的兩倍了卦睹,感慨一下女生在婚戀問題上的焦慮感。方库。结序。。
女生年齡分布

4.發(fā)帖內容詞云圖
去除語氣詞纵潦,標點等徐鹤,截取詞頻top200的詞匯。kkk有點因錘絲聽:
“喜歡酪穿,希望":大家對戀愛凳干,婚姻還是比較樂觀的,還抱有美好的期待
“工作被济,身高救赐,性格”:硬指標
“160,170”:男生170只磷,女生160是個坎


Top200詞云
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末经磅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子钮追,更是在濱河造成了極大的恐慌预厌,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件元媚,死亡現(xiàn)場離奇詭異轧叽,居然都是意外死亡,警方通過查閱死者的電腦和手機刊棕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門炭晒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人甥角,你說我怎么就攤上這事网严。” “怎么了嗤无?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵震束,是天一觀的道長。 經(jīng)常有香客問我当犯,道長垢村,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任嚎卫,我火速辦了婚禮肝断,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己胸懈,他們只是感情好担扑,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著趣钱,像睡著了一般涌献。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上首有,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天燕垃,我揣著相機與錄音,去河邊找鬼井联。 笑死卜壕,一個胖子當著我的面吹牛,可吹牛的內容都是我干的烙常。 我是一名探鬼主播轴捎,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蚕脏!你這毒婦竟也來了侦副?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤驼鞭,失蹤者是張志新(化名)和其女友劉穎秦驯,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挣棕,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡译隘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了洛心。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片固耘。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖皂甘,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情悼凑,我是刑警寧澤偿枕,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站户辫,受9級特大地震影響渐夸,放射性物質發(fā)生泄漏。R本人自食惡果不足惜渔欢,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一墓塌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦苫幢、人聲如沸访诱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽触菜。三九已至,卻和暖如春哀峻,著一層夾襖步出監(jiān)牢的瞬間涡相,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工剩蟀, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留催蝗,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓育特,卻偏偏與公主長得像丙号,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子且预,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355