Python分析 | 從00-90后的微信昵稱

一、前言

大家好纹蝴，首先說明的是庄萎，這是一篇技術(shù)文，也是一篇not技術(shù)文骗灶，今天分享的是惨恭，當(dāng)我獲取了微信小程序英文取名的3500多個(gè)微信用戶昵稱、年齡段后耙旦，分析得到下面解果脱羡。。免都。

二锉罐、Let's get it

1.基本信息獲取

1.訪問英文取名的用戶基本信接口，獲取英文取名用戶微信名（NickName）绕娘、訪問次數(shù)（Count）脓规、總數(shù)據(jù)集（ResponseData），并將微信名存入文件险领。

#?獲取所有用戶數(shù)量和相關(guān)信息

defget_json():

#?獲取入口

search_url?='英文取名用戶接口侨舆，歡迎掃碼使用英文取名，生成一個(gè)最適合你的英文名'

#?發(fā)送http請(qǐng)求,獲取請(qǐng)求頁面

search_response?=requests.get(search_url)

#?設(shè)置編碼

search_response.encoding?='UTF-8'

#?將頁面轉(zhuǎn)變成json代碼格式

search_json?=search_response.json()

#?獲取我們需要的數(shù)據(jù),是列表格式

our_data?=search_json['ResponseData']

list_len?=?len(our_data)

print('總用戶數(shù)有：'+?str(list_len))

user_visit_numbers?=0

data_research?=0

NickName?=?[]

forxinour_data:

user_numbers?=?x['Count']?+user_visit_numbers

ifx['NickName']?=='':

data_research?+=1

NickName.append(x['NickName'])

print("微信名獲取失敗量："+str(data_research))

print(NickName)

name?=?['微信名稱']

file_test?=pd.DataFrame(columns=name,?data=NickName)

file_test.to_csv(r'I:/data.csv',encoding='utf-8',index=False)

print('總訪問量：'+?str(user_visit_numbers))

運(yùn)行結(jié)果：

總用戶數(shù)有：3549

微信名獲取失敗量：0

總訪問量：4573

2.讀取所有微信名绢陌，數(shù)據(jù)分類

(1)讀取微信名

#?讀取文件挨下，取出微信名

defget_name():

NickName?=?[]

withopen('I:/data.csv','r',encoding='utf8')asfile?:

i?=0

forlineinfile:

ifi?==0:#?去除表頭

i?=1

continue

line?=?line.strip()#?去除換行符

NickName.append(line)

returnNickName

(2)數(shù)據(jù)分為以下六大類

中文名

變量名

數(shù)據(jù)類型

全中文昵稱ch_namelist

全英文昵稱en_namelist

中文和數(shù)字混合昵稱ch_di_namelist

包含圖片表情昵稱img_namelist

其他昵稱other_namelist

#?ch?：Chinese

ch_name_number?=0

ch_name?=?[]

#?en?：English

en_name_number?=0

en_name?=?[]

#?di?:?digtal

di_name_number?=0

di_name?=?[]

#?img?:?image

img_name_number?=0

img_name?=?[]

#?ch_di?:?Chinese?and?digtal

ch_di_name?=?[]

#?other?:?other

oth_name_number?=0

oth_name?=?[]

(3)數(shù)據(jù)分類判斷

#?昵稱全中文判斷

defis_all_ch(keyword):

forcinkeyword:

#?包含常見中文字符

ifnot('\u4e00'<=?c?<='\u9fa5'):

returnFalse

returnTrue

#?昵稱全英文判斷

defis_all_en(keyword):

#?不能全部為空格或者首位為空格

ifall(ord(c)?==32forcinkeyword)orkeyword[0]?=='?':

returnFalse

#?允許空格和英文并存(例如：Xist?A)

ifnotall(65<?ord(c)?<128orord(c)?==32forcinkeyword):

returnFalse

returnTrue

#?昵稱全數(shù)字判斷

defis_all_di(keyword):

forucharinkeyword:

ifnot(uchar?>='\u0030'anduchar?<=u'\u0039'):

returnFalse

returnTrue

#?昵稱包含表情圖判斷

defhave_img(keyword):

#?下面是大部分圖片的一個(gè)unicode編碼集

#?詳情查看：https://en.wikipedia.org/wiki/Emoji

img_re?=?re.compile(u'['

u'\U0001F300-\U0001F64F'

u'\U0001F680-\U0001F6FF'

u'\u2600-\u2B55]+',

re.UNICODE)

ifimg_re.findall(keyword)?:

returnTrue

returnFalse

#?中文+數(shù)字昵稱判斷

defis_ch_di(keyword):

forcinkeyword:

ifnot('\u4e00'<=?c?<='\u9fa5')andnot(c?>='\u0030'andc?<=u'\u0039'):

returnFalse

returnTrue

(4)數(shù)據(jù)歸類計(jì)算各類數(shù)量

list_name?=?get_name()

print("總共有："+str(len(list_name))+"個(gè)微信名")

foriinrange(len(list_name)):

result?=?classification_name(list_name[i])

ifresult?=='ch':#?中文

ch_name_number?+=1

ch_name.append(list_name[i])

ifresult?=='en':#?英文

en_name_number?+=1

en_name.append(list_name[i])

ifresult?=='di':#?數(shù)字

di_name_number?+=1

di_name.append(list_name[i])

ifresult?=='img':#?含表情

img_name_number?+=1

img_name.append(list_name[i])

ifresult?=='ch_di':#?中文和數(shù)字

ch_di_name_number?+=1

ch_di_name.append(list_name[i])

ifresult?=='other':#?其他

oth_name_number?+=1

oth_name.append(list_name[i])

print("純中文昵稱個(gè)數(shù)："+?str(ch_name_number))

#?print(ch_name)

print("純英文昵稱個(gè)數(shù)："+?str(en_name_number))

#print(en_name)

print("純數(shù)字昵稱個(gè)數(shù)："+?str(di_name_number))

#?print(di_name)

print("包含表情圖昵稱個(gè)數(shù)："+?str(img_name_number))

#?print(img_name)

print("中文和數(shù)字混合昵稱個(gè)數(shù)："+?str(ch_di_name_number))

print(ch_di_name)

print("其他昵稱個(gè)數(shù)："+?str(oth_name_number))

#?print(oth_name)

運(yùn)行結(jié)果：

總共有：3549個(gè)微信名

純中文昵稱個(gè)數(shù)：1514

純英文昵稱個(gè)數(shù)：569

純數(shù)字昵稱個(gè)數(shù)：9

包含表情圖昵稱個(gè)數(shù)：400

中文和數(shù)字混合昵稱個(gè)數(shù)：19

其他昵稱個(gè)數(shù)：1038

3.獲取用戶畫(只獲取用戶年齡段)

3.訪問英文取名用戶畫像接口，獲取近30天活躍用戶和新用戶的年齡段

#?獲取用戶年齡段

defget_data():

#?獲取token,并處理

t?=?get_token().strip('"')

#?然后將處理后的token值和其他參數(shù)作為post方式的參數(shù)值脐湾，調(diào)用用戶畫像api

post_user_api?="?https://api.weixin.qq.com/datacube/getweanalysisappiduserportrait?access_token="

post_user_url?=?post_user_api?+?t

#?訪問獲取概況數(shù)據(jù)?(近一個(gè)月的數(shù)據(jù)情況)

data?=?json.dumps({

"begin_date":"2018-07-21",

"end_date":"2018-08-19"})

#?獲取信息

user_portrait_data?=?get_info(post_user_url,?data)

#?時(shí)間段

ref_date?=?user_portrait_data['ref_date']

#?新用戶

visit_uv_new?=?user_portrait_data['visit_uv_new']

活躍用戶

visit_uv?=?user_portrait_data['visit_uv']

#?年齡段

print(ref_date?)

print((visit_uv_new['ages']))

print((visit_uv['ages']))

運(yùn)行結(jié)果：

#?id?：?為年齡段序號(hào)??name?：年齡段名稱????value?:?該年齡段人數(shù)

20180721-20180819

[{'id':0,'name':'未知','value':6},?{'id':1,'name':'17歲以下','value':18},?{'id':2,'name':'18-24歲','value':118},?{'id':3,'name':'25-29歲','value':75},?{'id':4,'name':'30-39歲','value':81},?{'id':5,'name':'40-49歲','value':14},?{'id':6,'name':'50歲以上','value':7}]

[{'id':0,'name':'未知','value':6},?{'id':1,'name':'17歲以下','value':20},?{'id':2,'name':'18-24歲','value':147},?{'id':3,'name':'25-29歲','value':88},?{'id':4,'name':'30-39歲','value':95},?{'id':5,'name':'40-49歲','value':20},?{'id':6,'name':'50歲以上','value':10}]

三臭笆、來點(diǎn)有趣的，數(shù)據(jù)清洗、分析

1.微信名稱類型數(shù)據(jù)可視化分析

核心代碼：

#?1.微信名分類：玫瑰餅圖

frompyechartsimportPie

#?數(shù)據(jù)獲取自上面代碼

attr?=?["純中文昵稱","純英文昵稱","純數(shù)字昵稱","包含表情圖昵稱","中文和數(shù)字混合昵稱","其他昵稱"]

v1?=?[1514,569,9,400,19,1038]

pie?=?Pie("微信名分類餅圖",?title_pos='center',?width=900)

pie.add(

"占比",

attr,

v1,

center=[50,50],

is_random=True,

radius=[30,75],

rosetype="area",

is_legend_show=False,

is_label_show=True,

)

pie.render("render_01.html")

運(yùn)行效果：

微信昵稱類別玫瑰餅圖

從中可以看出愁铺，微信昵稱為全中文的占比最多鹰霍，占有42.66%，其次為其他昵稱(中英文混合茵乱、字符等類型)茂洒，占有29.25%，再比較大的類就是純英文昵稱似将，占有16.03%,和包含表情包昵稱获黔，占有11.27%，像純數(shù)字昵稱和中文數(shù)字混合昵稱相對(duì)占比較少在验，我們常見的中文和數(shù)字混合昵稱最多的就機(jī)構(gòu)名/姓名+聯(lián)系方式玷氏，一些營(yíng)銷號(hào)常用，相較而言腋舌，大多數(shù)人還是喜歡用純中文來作昵稱盏触，既體現(xiàn)一種文化情懷，又簡(jiǎn)明扼要的介紹了自己?块饺，比如我的微信名就是老表赞辩，這是我初中時(shí)候的一個(gè)綽號(hào)，朋友們一說老表授艰，不一定是在說親戚辨嗽，有可能在說我，哈哈哈淮腾。

2.微信用戶年齡段可視化分析

核心代碼：

#?2.用戶年齡段：玫瑰餅圖

frompyechartsimportPie

#?數(shù)據(jù)獲取自上面代碼

attr?=?["未知","17歲以下","18-24歲","25-29歲","30-39歲","40-49歲","50歲以上"]

v1?=?[12,38,265,163,176,34,17]

pie?=?Pie("微信用戶年齡段餅圖",?title_pos='center',?width=900)

pie.add(

"占比",

attr,

v1,

center=[50,50],

is_random=True,

radius=[30,75],

rosetype="area",

is_legend_show=False,

is_label_show=True,

)

pie.render("render_02.html")

運(yùn)行效果：

用戶年齡段分布玫瑰餅圖

從中可以看出糟需，年齡段中，18-24歲的95-00后占比最多谷朝，達(dá)到37.59%洲押，接下來是30-39歲的80-90后，占比達(dá)到24.97%,緊隨其后的為25-29歲的90-95后圆凰，占比達(dá)23.12%杈帐，其他年齡段可大概分為兩類：偏兒童類和偏老人類，一共占比10.21%专钉，我個(gè)人覺得這類人群少的原因是：小孩挑童、老人玩微信的少，更不用說微信小程序了跃须，對(duì)于小孩來說微信的作用就是玩游戲（登錄賬號(hào)）炮沐，對(duì)于老人來說，微信主要用來聊天回怜，已經(jīng)是比較復(fù)雜的了，小程序使用可能對(duì)老人來說就更復(fù)雜了，也缺少必要性玉雾。

3.詞云分析微信名稱哪些詞語翔试、表情包更受歡迎

(1)繼續(xù)使用pyecharts生成詞云圖

核心代碼：

#?清洗數(shù)據(jù)，生成詞云圖

defsplit_word(test_str):

test_str?=?re.sub('[,复旬，垦缅。.?\r\n]','',?test_str)

#?jieba?詞語

segment?=?jieba.lcut(test_str)

words_df?=?pd.DataFrame({'segment':?segment})

#?quoting=3?表示stopwords.txt里的內(nèi)容全部不引用

stopwords?=?pd.read_csv(r"H:\PyCoding\?Analysis_wx_name\stopwords.txt",?index_col=False,?quoting=3,?sep="\t",?names=['stopword'],?encoding='utf-8')

words_df?=?words_df[~words_df.segment.isin(stopwords.stopword)]

words_stat?=?words_df.groupby(by=['segment'])['segment'].agg({"計(jì)數(shù)":?numpy.size})

words_stat?=?words_stat.reset_index().sort_values(by=["計(jì)數(shù)"],?ascending=False)

test?=?words_stat.head(200).values

codes?=?[test[i][0]foriinrange(0,len(test))]

counts?=?[test[i][1]foriinrange(0,len(test))]

wordcloud?=?WordCloud(width=1300,?height=620)

wordcloud.add("微信昵稱",?codes,?counts,?word_size_range=[20,100])

wordcloud.render('render_03.html')

運(yùn)行效果：

pyecharts詞云圖

(2)使用wordcloud+matplotlib生成高級(jí)一點(diǎn)的詞云圖

核心代碼：

#?下下期好好講一下matplotlib繪圖可視化，挺有意思的

#?調(diào)用get_name函數(shù)獲取全部微信名

text?=?get_name()

#?調(diào)用jiebaclearText函數(shù)驹碍，清洗數(shù)據(jù)(該函數(shù)和上面切詞思想一樣)

text1=jiebaclearText(text)

#產(chǎn)生詞云圖

bg?=?plt.imread(r"G:\small_pig.jpg")

#生成詞云

wc=WordCloud(

background_color="wathet",#設(shè)置背景為白色壁涎，默認(rèn)為黑色

mask=bg,#?設(shè)置詞云內(nèi)容范圍(除指定圖片白色區(qū)域的其他區(qū)域都將覆蓋詞云內(nèi)容)

margin=10,#設(shè)置圖片的邊緣

max_font_size=70,#顯示的最大的字體大小

random_state=20,#為每個(gè)單詞返回一個(gè)PIL顏色

font_path='G:\simkai.ttf'#中文處理，用系統(tǒng)自帶的字體

#?可以在這里下載這個(gè)字體：http://www.font5.com.cn/font_download.php?id=534&part=1245067666

).generate(text1)

#為圖片設(shè)置字體

my_font=fm.FontProperties(fname='G:\simkai.ttf')

#?圖片背景

bg_color?=?ImageColorGenerator(bg)

#?開始畫圖

plt.imshow(wc.recolor(color_func=bg_color))

#?為云圖去掉坐標(biāo)軸

plt.axis("off")

#?保存云圖

wc.to_file("render_04.png")

詞云輪廓原圖：

這是您的專屬社會(huì)人

運(yùn)行效果：

wordcloud詞云圖

由于第二種方法無法解析表情圖志秃，所以沒有表情出現(xiàn)怔球，除此外這兩種方法顯示的詞云圖內(nèi)容幾乎大同小異。

通過詞云圖浮还，我們一眼看出大家使用最多的竟坛，除開中文后，就是表情圖了钧舌，你的微信朋友圈里是否也有這樣的大紅嘴唇担汤，我的好像有，哈哈哈~當(dāng)我們單純來看詞云中的中文時(shí)洼冻，發(fā)現(xiàn)像太陽崭歧、陽光、微笑撞牢、可愛率碾、開心、愛普泡、未來等比較積極向上的詞語還是比較受大家喜歡的播掷，也體現(xiàn)出大家的內(nèi)心的積極、樂觀撼班，當(dāng)然還有像麗麗歧匈、徐、陳等這樣的姓名部分砰嘁，在昵稱中大家也使用的比較多件炉，也不缺乏有像悲傷、涼這樣比較冷色的詞語矮湘。

四斟冕、通過昵稱進(jìn)行情緒分析(大膽猜想)

01 | 微信昵稱為全中文

微信昵稱為全中文可以分為兩大類：自己的真名和其他昵稱。

直接用自己的姓名當(dāng)微信昵稱的人缅阳，性格大多是直來直往的那種磕蛇，待人比較坦誠(chéng)。

他們的微信一般用于熟人社交和日常辦公，平時(shí)不會(huì)隨便加不熟的人秀撇，就算用真名也不怕泄露個(gè)人信息超棺，來個(gè)不恰當(dāng)?shù)谋扔鳎翰蛔鎏澬氖拢慌鹿砬瞄T呵燕，哈哈哈棠绘。

為其他昵稱的人，大多有自己的看法再扭，也許昵稱是自己對(duì)未來的一種期望氧苍，也許昵稱是自己對(duì)生活的一種態(tài)度，或者是一些無厘頭的話語泛范，炫酷的話語让虐。(猜測(cè))

02 | 微信昵稱為全英文

出于個(gè)人喜好或工作需求，有些人會(huì)給自己取一個(gè)容易記的敦跌、叫著順口的英文名澄干，比如Tom、Abby柠傍、Jason麸俘，并常常在自我介紹的時(shí)候，讓大家可以用英文名字稱呼自己惧笛。

對(duì)他們而言从媚，英文名就相當(dāng)于自己的第二個(gè)名字，用它做微信名患整，和用本名沒什么太大的區(qū)別拜效。

也有的人會(huì)刻意避開那些常見的英文名，取一些更小眾的各谚，他們更在意提高自己的“逼格”紧憾，喜歡標(biāo)新立異，追求時(shí)尚和前衛(wèi)昌渤。(猜測(cè))

如果您覺得此篇文章對(duì)您有幫助赴穗，歡迎關(guān)注微信公眾號(hào)：大禹編程，您的支持是對(duì)我最大的鼓勵(lì)膀息！共同學(xué)習(xí)般眉，共同進(jìn)步:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市潜支，隨后出現(xiàn)的幾起案子甸赃，更是在濱河造成了極大的恐慌，老刑警劉巖冗酿，帶你破解...
沈念sama閱讀 218,546評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件埠对，死亡現(xiàn)場(chǎng)離奇詭異络断，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)鸠窗，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門妓羊，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人稍计，你說我怎么就攤上這事≡Ｑ” “怎么了臣嚣？”我有些...
開封第一講書人閱讀 164,911評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)剥哑。經(jīng)常有香客問我硅则，道長(zhǎng)，這世上最難降的妖魔是什么株婴？我笑而不...
開封第一講書人閱讀 58,737評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任怎虫，我火速辦了婚禮，結(jié)果婚禮上困介，老公的妹妹穿的比我還像新娘大审。我一直安慰自己，他們只是感情好座哩，可當(dāng)我...
茶點(diǎn)故事閱讀 67,753評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布徒扶。她就那樣靜靜地躺著，像睡著了一般根穷。火紅的嫁衣襯著肌膚如雪姜骡。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,598評(píng)論 1贊 305
城市分裂傳說
那天屿良，我揣著相機(jī)與錄音圈澈，去河邊找鬼。笑死尘惧，一個(gè)胖子當(dāng)著我的面吹牛康栈，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播褥伴，決...
沈念sama閱讀 40,338評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼谅将，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了重慢？” 一聲冷哼從身側(cè)響起饥臂，我...
開封第一講書人閱讀 39,249評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎似踱，沒想到半個(gè)月后隅熙，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體稽煤，經(jīng)...
沈念sama閱讀 45,696評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,888評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年囚戚，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酵熙。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,013評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡驰坊，死狀恐怖匾二，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情拳芙，我是刑警寧澤察藐，帶...
沈念sama閱讀 35,731評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站舟扎，受9級(jí)特大地震影響分飞，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜睹限，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,348評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一譬猫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧羡疗，春花似錦染服、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,929評(píng)論 0贊 22
一樁弒父案肌索，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至特碳，卻和暖如春诚亚，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背午乓。一陣腳步聲響...
開封第一講書人閱讀 33,048評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工站宗，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人益愈。一個(gè)月前我還...
沈念sama閱讀 48,203評(píng)論 3贊 370
代替公主和親
正文我出身青樓梢灭，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親蒸其。傳聞我的和親對(duì)象是個(gè)殘疾皇子敏释，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,960評(píng)論 2贊 355

Python分析 | 從00-90后的微信昵稱

推薦閱讀更多精彩內(nèi)容