對于一個企業(yè)而言迟杂,最核心的資產(chǎn)應(yīng)該是人才,留住人才就能保持企業(yè)的持續(xù)發(fā)展本慕,但沒有員工流失的企業(yè)是不存在的排拷。實際情況是,無論企業(yè)的平臺多么高锅尘,福利多么好监氢,肯定還是會存在員工離職的情況,這是一種非常正常的現(xiàn)象藤违。對于企業(yè)而言浪腐,就需要識別員工離職的真正原因,提高人力資源管理中的短板顿乒,留住對企業(yè)真正有用的人才议街。(沒用的人就讓他走好了。璧榄。特漩。吧雹。)
本文將從數(shù)據(jù)分析的角度來看真正影響員工的離職的原因。本文的數(shù)據(jù)來自kaggle網(wǎng)站涂身,可以去原始地址下載點我下載原始數(shù)據(jù)雄卷。如果沒有kaggle賬號的,可以點擊下面鏈接下載:
百度網(wǎng)盤下載蛤售, 密碼:PVxq
數(shù)據(jù)說明
壓縮包中有一個csv文件丁鹉,包含了企業(yè)14999個員工的評價信息和在職情況,包含的字段如下:
- satisfaction_level: 員工滿意度:0-1之間的一個數(shù)值悍抑。得分越高代表員工對企業(yè)越滿意鳄炉。
- last_evaluation: 最近一次評分:0-1之間的一個數(shù)值。得分越高代表員工表現(xiàn)越好搜骡。
- number_project: 員工做過的總項目數(shù)拂盯。
- average_montly_hours: 每月的平均工作時長(小時)。
- time_spend_company: 員工在公司的時間(年)记靡。
- Work_accident: 員工是否在職期間有過工傷谈竿。
- left: 是否離職(0-在職,1-離職)摸吠。
- promotion_last_5years: 最近5年是否有過升職(0-沒有空凸,1-有)。
- sales: 部門寸痢。
- salary: 薪水(low-低薪呀洲,medium-中等收入,high-高薪)啼止。
數(shù)據(jù)探索
本章我們使用R語言對企業(yè)員工數(shù)據(jù)進行探索道逗,目的是分析員工的離職究竟和哪些因素有關(guān)系。
載入需要的包
library(ggplot2)
library(corrplot)
library(rpart)
library(rpart.plot)
library(caret)
library(e1071)
讀入文件
df = read.csv(file="HR_comma_sep.csv", header = T, sep = ',')
head(df)
探索數(shù)據(jù)的結(jié)構(gòu)
str(df)
summary(df)
計算各個維度之間的相關(guān)性
#由于sales和salary為factor献烦,所以先去掉
hr_col = df[,c(1:8)]
hr_col_matrix = cor(hr_col)
corrplot(hr_col_matrix)
畫出各個變量的相關(guān)性如下:
因為left=1表示員工已經(jīng)離職滓窍,從上述途中和left相關(guān)的變量可以看出:
- 員工滿意度越高,員工越不會離職
- 員工受過工傷巩那,越不會離職 (這個原因...)
- 最近5年有過升職的員工吏夯,離職的可能性比較低
- 每月平均工作時間越長的員工,離職的可能性越高
下面我們通過箱體圖來進行對比分析單個元素對于員工是否離職的影響即横。
- 員工滿意度
ggplot(data=hr_col, aes(x=as.factor(left), y=satisfaction_level))+geom_boxplot(aes(fill=as.factor(left)))
從上圖可以看出噪生,選擇留在公司的員工一般都是對公司比較 滿意的。
- 員工評分
ggplot(data=hr_col, aes(x=as.factor(left), y=last_evaluationlast_evaluation))+geom_boxplot(aes(fill=as.factor(left)))
從上圖可以看出东囚,評分在0.6-0.8之間的員工比較穩(wěn)定杠园。
- 做過的項目數(shù)量
ggplot(data=hr_col, aes(x=as.factor(left), y=number_project))+geom_boxplot(aes(fill=as.factor(left)))
從上圖可以看出,項目數(shù)量在3-4個左右的員工是比較穩(wěn)定的。
- 月平均工作時間(小時)
ggplot(data=hr_col, aes(x=as.factor(left), y=average_montly_hours/8))+geom_boxplot(aes(fill=as.factor(left)))
在上圖中抛蚁,我按照每天8小時工作時間陈醒,將小時換算成為天。從上圖可以看出瞧甩,每月工作時間在20到30天之間的員工比較穩(wěn)定钉跷。(我們也看到有工作時間在20天以下的,也跳槽了肚逸,這一般估計是缺勤的爷辙。另外有工作時間超過30天的,這種估計就是壓力特別大,所以離職也是可以理解的,去哪里工作不是工作對吧_)
- 員工工作年限
ggplot(data=hr_col, aes(x=as.factor(left), y=time_spend_company))+geom_boxplot(aes(fill=as.factor(left)))
從圖中可以看到于樟,工作年限2-4年的員工比較穩(wěn)定,當(dāng)然也看到有工作年限在8-10年的骨灰級員工血当,他們離職醫(yī)院是比較弱的。left=1的員工基本工作年限在3-5年禀忆,所以這個時間段應(yīng)該是員工離職的高發(fā)時間段臊旭。
- 5年內(nèi)是否有過升職
df_pro = aggregate(df$left, by = list(df$promotion_last_5years), FUN = sum)
colnames(df_pro) = c('promotion_last_5years', 'left_sum')
df_pro$promotion_last_5years=as.factor(df_pro$promotion_last_5years)
p=ggplot(data = df_pro, mapping = aes(x = '', y = left_sum, fill = promotion_last_5years)) + geom_bar(stat = 'identity', position = 'stack', width = 1)+coord_polar(theta = "y")
p+labs(x = '', y = '離職人員數(shù)量對比', title = '離職人員最近5年升職情況對比')
我們篩選出所有離職的員工,然后統(tǒng)計其5年內(nèi)是否有過升職箩退。通過上圖可以看出离熏,占比超過99%的離職員工5年內(nèi)都沒有升過職。所以戴涝,企業(yè)對于員工的升職加薪對于留住員工還是很重要的滋戳。
- 薪水情況
df_sal = aggregate(df$left, by = list(df$salary), FUN = sum)
colnames(df_sal) = c("salary", 'left_sum')
p=ggplot(data = df_sal, mapping = aes(x = '', y = left_sum, fill = salary)) + geom_bar(stat = 'identity', position = 'stack', width = 1)+coord_polar(theta = "y")
p+labs(x = '', y = '離職人員數(shù)量對比', title = '離職人員薪酬情況對比')
從上圖可以看出,離職員工中薪水較低和中等的占比超過了95%啥刻。結(jié)合之前的升職情況統(tǒng)計奸鸯,離職的原因很明了了。(沒有升職郑什、沒有加薪府喳,畫個餅就讓我一直給你打工....)
- 部分離職對比
df_sales = aggregate(df$left, by = list(df$sales), FUN = sum)
colnames(df_sales) = c("sales", 'left_sum')
label_value <- paste('(', round(df_sales$left_sum/sum(df_sales$left_sum) * 100, 1), '%)', sep = '')
label_value
label <- paste(df_sales$sales, label_value, sep = '')
p=ggplot(data = df_sales, mapping = aes(x = '', y = left_sum, fill = sales)) + geom_bar(stat = 'identity', position = 'stack', width = 1)+coord_polar(theta = "y")
p+labs(x = '', y = '離職人員數(shù)量對比', title = '離職人員部門情況對比')+scale_fill_discrete(labels=label)
從上圖看出蒲肋,銷售和技術(shù)人員在離職人員中占比是最高的蘑拯。企業(yè)應(yīng)該特別注意這兩個部門的員工。