大數(shù)據(jù)boss直聘招聘信息爬蟲+數(shù)據(jù)分析可視化系統(tǒng)+薪資預(yù)測(cè)+崗位推薦
一茵汰、開發(fā)技術(shù)
pycharm瘾英、MySQL數(shù)據(jù)庫(kù)/sqlite3數(shù)據(jù)庫(kù)浩村、Python3.x版本露戒、Flask框架描验、Scrapy框架
anconda3白嘁、chrome_driver
1、開發(fā)框架
前端? html css ajax
后端? flask requests pandas
數(shù)據(jù)庫(kù) mysql
二膘流、功能
招聘信息爬蟲絮缅、數(shù)據(jù)分析、Echarts可視化呼股、薪資預(yù)測(cè)耕魄、崗位推薦
開發(fā)崗位、非開發(fā)崗位..........
三彭谁、項(xiàng)目運(yùn)行截圖
四吸奴、說(shuō)明
信息在任何時(shí)代都是非常重要的,隨著現(xiàn)在互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,信息以指數(shù)形式在爆炸式增長(zhǎng)中则奥。傳統(tǒng)的信息處理模式繁瑣且處理時(shí)間較長(zhǎng)考润,已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)有需求。為了能夠更加準(zhǔn)確且高效獲取和處理更多信息读处,數(shù)據(jù)的挖掘和分析成為了熱點(diǎn)糊治。目前,獲取大量數(shù)據(jù)并對(duì)其進(jìn)行分析時(shí)最廣泛的方法之一是使用python爬蟲技術(shù)以及數(shù)據(jù)分析技術(shù)罚舱,可以方便且定向獲取互聯(lián)網(wǎng)上的大數(shù)據(jù)井辜,并且進(jìn)行篩選后獲得更精準(zhǔn)的信息。
本文主要研究:基于Python爬蟲以及數(shù)據(jù)分析的應(yīng)用管闷。為了幫助求職者更好的進(jìn)行就業(yè)選擇粥脚,對(duì)招聘網(wǎng)站職位信息進(jìn)行數(shù)據(jù)爬取與分析。通過(guò)URL構(gòu)造包个,多線程爬取數(shù)據(jù)阿逃,并對(duì)數(shù)據(jù)進(jìn)行清洗處理后以圖形化展示。
本文的特色:主要采用python腳本語(yǔ)言進(jìn)行爬蟲腳本設(shè)計(jì)赃蛛,直接使用CSV文件進(jìn)行數(shù)據(jù)存儲(chǔ)恃锉,數(shù)據(jù)分析采用matplotlib庫(kù),以pandas庫(kù)讀取數(shù)據(jù)生成可視化圖的展示呕臂。
關(guān)鍵詞:python破托;爬蟲;數(shù)據(jù)分析歧蒋;可視化
flask
pymysql
wordcloud
flask-caching
pandas
selenium
bs4