【MySQL】數(shù)據(jù)分析職位求職指南數(shù)據(jù)清洗

通過八爪魚軟件搬男,爬取了前程無憂網(wǎng)和獵聘網(wǎng)關(guān)鍵詞“數(shù)據(jù)分析”的全國范圍內(nèi)1月內(nèi)發(fā)布的企業(yè)職位撒穷。

本次分析源數(shù)據(jù)的職位發(fā)布日期:2019年7月20日-2019年7月30日

清洗完成后,用于分析的數(shù)據(jù)2875條


數(shù)據(jù)清洗

數(shù)據(jù)結(jié)構(gòu)

爬取到的原始數(shù)據(jù)有X條邢羔,使用MySQL對(duì)爬取的原始數(shù)據(jù)進(jìn)行清洗。

原始數(shù)據(jù)字段:

id int(255):序號(hào)

jobtitle VARCHAR(255) :職位名稱

company VARCHAR(255):公司名稱

salary VARCHAR(255):薪酬

position VARCHAR(255):工作地

qualification VARCHAR(255):職位要求,包括學(xué)歷囚似、工作經(jīng)驗(yàn)、語言线得、年齡

tag VARCHAR(255):職位標(biāo)簽饶唤,包括五險(xiǎn)一金、年底雙薪贯钩、節(jié)日福利等

industry VARCHAR(255):行業(yè)

size VARCHAR(255):公司規(guī)模募狂,人員數(shù)


職位名稱

刪除空值:

DELETE

FROM

liepin

WHERE

jobtitle IS NULL;

刪除與數(shù)據(jù)分析無關(guān)的職位:

DELETE

FROM

51job

WHERE

jobtitle NOT LIKE '%數(shù)據(jù)%分析%'

AND jobtitle NOT LIKE '%大數(shù)據(jù)%'

AND jobtitle NOT LIKE '%數(shù)據(jù)%運(yùn)營%'

AND jobtitle NOT LIKE '%DBA%';


薪酬數(shù)據(jù)

將薪酬算為平均年薪:

--提取 salary,獲得 min - max - average salary

--新建列

ALTER TABLE liepin ADD ( min_salary FLOAT ( 10 ), max_salary FLOAT ( 10 ), average_salary FLOAT ( 10 ) );

--when `salary` LIKE '%面議%',min / max / average = 0

UPDATE liepin

SET min_salary = 0,

max_salary = 0,

average_salary = 0

WHERE

salary LIKE '%面議%';

--salary不是面談時(shí)角雷,salary格式 'min-max萬' --min_salary = min

UPDATE liepin

SET min_salary = SUBSTRING_INDEX( salary, '-', 1 )

WHERE

salary LIKE '%-%萬%';

--max_Salary = max

UPDATE liepin

SET max_salary = (

SUBSTRING( SUBSTRING_INDEX( salary, '萬', 1 ), LOCATE( '-', SUBSTRING_INDEX( salary, '萬', 1 ) ) + 1 )

)

WHERE

salary LIKE '%-%萬%';

--average_salary = ( min + max ) / 2

UPDATE liepin

SET average_salary = ( min_salary + max_salary ) / 2

WHERE

salary LIKE '%-%萬%';


工作地域

將工作地域分成兩個(gè)字段祸穷,分成城市和區(qū)域,例如:字段1:北京? 字段2:朝陽區(qū)

ALTER TABLE liepin ADD (

position1 VARCHAR(255),

position2 VARCHAR(255)

);

UPDATE liepin SET position1 = position

WHERE position NOT LIKE '%-%';

UPDATE liepin SET position2 = 'null'

WHERE position NOT LIKE '%-%';

UPDATE liepin SET position1 = SUBSTRING_INDEX(`position`,'-',1)

WHERE position LIKE '%-%';

UPDATE liepin SET position2 = SUBSTRING(`position`,LOCATE('-',`position`)+1)

WHERE position LIKE '%-%';


職位要求

把職位要求分成學(xué)歷勺三、經(jīng)驗(yàn)雷滚、年齡和語言:

ALTER TABLE liepin ADD ( education VARCHAR ( 255 ), experience VARCHAR ( 255 ), age VARCHAR ( 255 ), LANGUAGE VARCHAR ( 255 ) );

--學(xué)歷

UPDATE liepin

SET education = substring_index( qualification, ' ', 1 );

--工作經(jīng)驗(yàn)

UPDATE liepin

SET experience = SUBSTRING( SUBSTRING_INDEX( qualification, ' ', 37 ), - 5 );

--年齡要求

UPDATE liepin

SET age = substring_index( qualification, ' ',- 1 );

--工作語言

UPDATE liepin

SET LANGUAGE = SUBSTRING( SUBSTRING_INDEX( qualification, ' ', 73 ), - 5 );


職位標(biāo)簽

將職位標(biāo)簽分開存入不同字段:

ALTER TABLE liepin ADD ( label1 VARCHAR ( 255 ), label2 VARCHAR ( 255 ) );

UPDATE liepin

SET label1 = SUBSTRING_INDEX( tag, ' ', 1 );

UPDATE liepin

SET label2 = SUBSTRING_INDEX( tag, ' ', - 1 );


行業(yè)

將行業(yè)簡化劃分:

ALTER TABLE liepin ADD ( industry1 VARCHAR ( 255 ) );

UPDATE liepin

SET industry1 = '其他'

WHERE

industry IS NOT NULL;

UPDATE liepin

SET industry1 = '互聯(lián)網(wǎng)/電子商務(wù)'

WHERE

industry LIKE '%互聯(lián)網(wǎng)%';

UPDATE liepin

SET industry1 = '投資'

WHERE

industry LIKE '%投資%';

UPDATE liepin

SET industry1 = '計(jì)算機(jī)軟件'

WHERE

industry LIKE '%計(jì)算機(jī)%';

UPDATE liepin

SET industry1 = 'IT服務(wù)'

WHERE

industry LIKE '%IT%';

UPDATE liepin

SET industry1 = '咨詢'

WHERE

industry LIKE '%咨詢%';

UPDATE liepin

SET industry1 = '保險(xiǎn)'

WHERE

industry LIKE '%保險(xiǎn)%';

UPDATE liepin

SET industry1 = '銀行'

WHERE

industry LIKE '%銀行%';

UPDATE liepin

SET industry1 = '服裝'

WHERE

industry LIKE '%服裝%';

UPDATE liepin

SET industry1 = '通信'

WHERE

industry LIKE '%通信%';

UPDATE liepin

SET industry1 = '食品'

WHERE

industry LIKE '%食品%';

UPDATE liepin

SET industry1 = '百貨'

WHERE

industry LIKE '%百貨%';

UPDATE liepin

SET industry1 = '游戲'

WHERE

industry LIKE '%游戲%';

UPDATE liepin

SET industry1 = '房地產(chǎn)'

WHERE

industry LIKE '%房地產(chǎn)%';


公司規(guī)模

將公司規(guī)模統(tǒng)一為:1-49人、50-99人吗坚、...祈远、10000人以上

ALTER TABLE liepin ADD ( size1 VARCHAR ( 255 ) );

UPDATE liepin

SET size1 = SUBSTRING_INDEX( size, ':',- 1 )

WHERE

size LIKE '%人%';


存入新表

將清洗過的,需要用來分析的數(shù)據(jù)存入新表

CREATE TABLE data (

id INT ( 255 ) auto_increment PRIMARY KEY,

jobtitle VARCHAR ( 255 ),

company VARCHAR ( 255 ),

average_salary FLOAT ( 10 ),

position1 VARCHAR ( 255 ),

position2 VARCHAR ( 255 ),

education VARCHAR ( 255 ),

experience VARCHAR ( 255 ),

age VARCHAR ( 255 ),

language VARCHAR ( 255 ),

industry1 VARCHAR ( 255 ),

size1 VARCHAR ( 255 ) ,

label1 VARCHAR ( 255 ),

label2 VARCHAR ( 255 )

);

ALTER TABLE data auto_increment = 1;

INSERT INTO data ( jobtitle, company, average_salary, position1, position2, education, experience, age, LANGUAGE, industry1, size1, label1, label2 ) SELECT DISTINCT

jobtitle,

company,

average_salary,

position1,

position2,

education,

experience,

age,

language,

industry1,

size1,

label1,

label2

FROM

liepin;


數(shù)據(jù)清洗部分結(jié)束商源。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末车份,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子牡彻,更是在濱河造成了極大的恐慌扫沼,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件讨便,死亡現(xiàn)場離奇詭異充甚,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)霸褒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門伴找,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人废菱,你說我怎么就攤上這事技矮《队” “怎么了?”我有些...
    開封第一講書人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵衰倦,是天一觀的道長袒炉。 經(jīng)常有香客問我,道長樊零,這世上最難降的妖魔是什么我磁? 我笑而不...
    開封第一講書人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮驻襟,結(jié)果婚禮上夺艰,老公的妹妹穿的比我還像新娘。我一直安慰自己沉衣,他們只是感情好郁副,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著豌习,像睡著了一般存谎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肥隆,一...
    開封第一講書人閱讀 49,821評(píng)論 1 290
  • 那天既荚,我揣著相機(jī)與錄音,去河邊找鬼巷屿。 笑死固以,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的嘱巾。 我是一名探鬼主播憨琳,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼旬昭!你這毒婦竟也來了篙螟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤问拘,失蹤者是張志新(化名)和其女友劉穎遍略,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骤坐,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡绪杏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了纽绍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蕾久。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖拌夏,靈堂內(nèi)的尸體忽然破棺而出僧著,到底是詐尸還是另有隱情履因,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布盹愚,位于F島的核電站栅迄,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏皆怕。R本人自食惡果不足惜毅舆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望愈腾。 院中可真熱鬧朗兵,春花似錦、人聲如沸顶滩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽礁鲁。三九已至,卻和暖如春赁豆,著一層夾襖步出監(jiān)牢的瞬間仅醇,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來泰國打工魔种, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留析二,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓节预,卻偏偏與公主長得像叶摄,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子安拟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349