開發(fā)技術(shù)
Hadoop匕累、HDFS、Spark默伍、SpringBoot、echarts衰琐、PySpark也糊、Python、MySQL
創(chuàng)新點
大數(shù)據(jù)架構(gòu)羡宙、爬蟲狸剃、數(shù)據(jù)可視化
啰里啰嗦
適合大數(shù)據(jù)畢業(yè)設(shè)計、數(shù)據(jù)分析狗热、爬蟲類計算機畢業(yè)設(shè)計
可二次開發(fā)選加推薦算法(協(xié)同過濾算法等或者調(diào)用SparkML庫)
數(shù)據(jù)處理流程
本環(huán)節(jié)主要講述的是對于整體項目功能的設(shè)計钞馁,設(shè)計方案為主要是由大數(shù)據(jù)系統(tǒng)以及可視化前端子系統(tǒng)組成。在可視化前端子系統(tǒng)中主要是采用了Springboot框架匿刮,mybatis框架僧凰,因為其去繁就簡的特點,很容易創(chuàng)建一個獨立的產(chǎn)品級應(yīng)用熟丸,在可視化階段采用Echarts來提供可交互的直觀數(shù)據(jù)可視化圖表训措。本系統(tǒng)采用的數(shù)據(jù)庫是MySQL數(shù)據(jù)庫,其目的是用來存儲利用爬蟲爬取到的大量招聘信息數(shù)據(jù)集和數(shù)據(jù)處理之后的分析結(jié)果光羞。大數(shù)據(jù)系統(tǒng)中主要是對招聘信息數(shù)據(jù)集通過使用Hive進行數(shù)據(jù)清洗绩鸣,然后再導(dǎo)入Hadoop HDFS中分布存儲。在通過Spark并行計算進行數(shù)據(jù)抽取纱兑,多維分析呀闻,查詢統(tǒng)計等操作來完成數(shù)據(jù)分析部分。在前端子系統(tǒng)中的數(shù)據(jù)明細(xì)查詢功能中讀取到MySQL數(shù)據(jù)庫中的數(shù)據(jù)分析結(jié)果潜慎,最后生成Echarts圖表展示給用戶捡多,大數(shù)據(jù)招聘信息智能分析平臺的工作流程如下圖所示。