招聘需求分析(爬蟲+詞云)

咳咳作為一個(gè)大三的人正在很努力地想找一份工作那么究竟要掌握什么樣的技能才能找到工作呢？瞎逼逼肯定是不行的所以我打開了百度

image.png

然后隨便找了個(gè)招聘網(wǎng)站點(diǎn)了進(jìn)去

image.png

就它吧
接著在職位搜索哪里填進(jìn)去相關(guān)信息

image.png

就跳出來一堆工作了隨便點(diǎn)進(jìn)去一個(gè)

image.png

天貓美工就能從任職要求里看到到底需要什么才能成功任職了
下面就是發(fā)揮我們的爬蟲能力不管他是啥先把他爬下來再說分詞什么的我們一點(diǎn)點(diǎn)做
先放代碼

from urllib import request
import time
from bs4 import BeautifulSoup
if __name__=="__main__":
    q = open("url.txt","rt")
    f = open('dataaa.txt','wt')
    num = 0
    for tar_url in q:
        head={ }
        head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'
        try:
            http_req = request.Request(url=tar_url,headers=head)
            http_response = request.urlopen(http_req)
            http_content = http_response.read().decode()
            #print(http_content)
            http_content_soup = BeautifulSoup(http_content,'lxml')
            info = http_content_soup.find_all('div',class_="compaydetail-box")
            flag = False
            try:
                for i in info[0]:
                    try:
                        text = i.text
                        if flag :
                            f.write(text)
                            f.write("\n")
                        if(text=="任職要求：" or text=="任職要求" or text=="崗位要求：" or text=="崗位要求"
                           or text=="任職資格" or text=="任職資格：" or text=="要求" or text=="要求："
                           or text=="職位要求：" or text=="職位要求"):
                            flag = True
                            num += 1
                            f.write(str(num))
                            f.write("\n")
                            print("over")
                    except:
                        continue
            except:
                continue
            time.sleep(0.1)
        except:
            continue
    f.close()

url是用來存放當(dāng)前頁面的網(wǎng)址的也就是我們?nèi)绾蔚秸衅疙撁娴姆椒?這個(gè)我們放到后面來講
dataaa呢使用存放招聘需求的也就是我們需要分詞的句段

好的接下來將代碼我是用的bs4庫那就先看這個(gè)屬于那個(gè)div塊

image.png

經(jīng)過重重盤查發(fā)現(xiàn)這段屬于 class="tab-inner-cont"
嗯好的那就先到這個(gè)塊但是隨后我就發(fā)現(xiàn)如果把這個(gè)設(shè)為關(guān)鍵字根本沒有任何匹配內(nèi)容
那就先看看 .read()到什么東西如果我們把class = "tab_inner-cont" 作為搜索條件去進(jìn)行文本搜索就會(huì)發(fā)現(xiàn) 同樣匹配不到任何內(nèi)容嗯那就說 html上的內(nèi)容和我們r(jià)equest的內(nèi)容根本不一不一樣那自然是以我們r(jià)equest的內(nèi)容為準(zhǔn)
于是我把.read()到的東西先開了個(gè)記事本然后進(jìn)行搜索 “任職要求” 就發(fā)現(xiàn)了
原來是在這個(gè)塊里
'div',class_="compaydetail-box"
那么我們只要設(shè)置這個(gè)為匹配的關(guān)鍵屬性就能成功獲得數(shù)據(jù)

接著是判斷任職要求我發(fā)現(xiàn)他是把所有的行都設(shè)為了 <p> </p>
那遍歷我們得到的數(shù)組如果發(fā)現(xiàn)滿足要求就說明之后所有的內(nèi)容都是我們要求的任職條件了

但是呢如果你打開多個(gè)頁面就會(huì)發(fā)現(xiàn)他對(duì)任職條件的描述不一定都命名為任職要求也有叫崗位要求的也有任職資格的這里我翻了一頁60個(gè)左右整合了一下就以我if中的判斷條件為依據(jù)開始爬取了

需要注意的是我們爬到的網(wǎng)址可能過期和可能根本沒有這個(gè)class = "compaydetail-box"塊
所以要放置幾個(gè)異常拋擲并且我感覺這個(gè)網(wǎng)站對(duì)爬取速度也有要求所以設(shè)置了sleep時(shí)間

接下來就將第二部分 url的爬取
同樣先放代碼

from urllib import request
from bs4 import BeautifulSoup

if __name__=="__main__":
    f = open("url.txt","wt")
    for i in range(1,91):
        url_base="http://sou.zhaopin.com/jobs/searchresult.ashx?bj=160000&jl=%E4%B8%8A%E6%B5%B7&sm=0&isfilter=0&fl=538&isadv=0&sg=44b41480a5814a11b14c9379449b7f68&p="
        url = url_base+str(i)
        head={}
        head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'
        html_req = request.Request(url=url,headers=head)
        html_response = request.urlopen(html_req)
        html_content = html_response.read().decode()
        html_content_soup = BeautifulSoup(html_content,"lxml")
        url_list = html_content_soup.find_all("td",class_="zwmc")
        num = 1
        for url in url_list:
            #print(str(num))
            #print(url)
            #print(url.a.get("href"))
            f.write(url.a.get("href"))
            f.write("\n")
    #           <table cellpadding="0" cellspacing="0" width="853" class="newlist">
    f.close()

image.png

所有的招聘有90個(gè)頁面然后仔細(xì)觀察這個(gè)90個(gè)url的網(wǎng)址就會(huì)發(fā)現(xiàn)
http://sou.zhaopin.com/jobs/searchresult.ashx?bj=160000&in=210500%3b160400%3b160000%3b160500%3b160200%3b300100%3b160100%3b160600&jl=%E4%B8%8A%E6%B5%B7&sm=0&kt=2&isfilter=0&fl=538&isadv=0&sg=f8cf4a43df6b46ce80c76044a5f1822b&p=1

http://sou.zhaopin.com/jobs/searchresult.ashx?bj=160000&in=210500%3b160400%3b160000%3b160500%3b160200%3b300100%3b160100%3b160600&jl=%E4%B8%8A%E6%B5%B7&sm=0&kt=2&isfilter=0&fl=538&isadv=0&sg=f8cf4a43df6b46ce80c76044a5f1822b&p=2

image.png

只有這個(gè) p不一樣那么很容易只要寫一個(gè) 循環(huán)語句就能從1到90了
然后接著分析 div塊

image.png

我們只要點(diǎn)擊這個(gè)子串就到轉(zhuǎn)向招聘頁面那么一定有一個(gè) href 指向招聘頁面

image.png

好的我們根據(jù)頁面的分布找到了對(duì)應(yīng)的代碼塊接著只要將這個(gè)找到這個(gè)小塊里的對(duì)應(yīng)的href就可以了
我找的是
url_list = html_content_soup.find_all("td",class_="zwmc")

找到之后將他write到url中留給第一部分解決

下面是第三部分分詞

import jieba
if __name__=="__main__":
    q = open("dataaa.txt", "rt")
    f = open('divide-text.txt', 'wt')
    file_path = "stopwords.txt"
    stopwords = [line.strip() for line in open(file_path, "r").readlines()]
    for text in q:
        word_list = jieba.cut(text, cut_all=False, HMM=True)
        for word in word_list:
            if word in stopwords:
                continue
            if len(word) > 1:
                f.write(word + " ")
        f.write("\n")
    f.close()

stopwords是停用詞表根據(jù)多次詞云返回設(shè)置停用詞表這個(gè)沒有什么好說的

from wordcloud import WordCloud
import matplotlib.pyplot as plt
f = open("divide-text.txt","rt")
text = f.read()
font_path = "C:\Windows\Fonts\simfang.ttf"
wc = WordCloud(font_path=font_path,background_color="white",max_words=80,width=1000,height=860,margin=2)
wc.generate(text)
plt.figure()
plt.imshow(wc)
plt.axis("off")
plt.show()
wc.to_file("fourth.png")

這里要注意的是中文詞云屬性的設(shè)置 font_path 設(shè)置中文的字體如果不設(shè)置的話就出現(xiàn)了迷之方框里面什么都沒有能看到的字只有幾個(gè)英文 background_color如同字面意思一般是背景顏色 max_words 字面意思最大單詞數(shù)量 = V = 后面是圖片大小的一般設(shè)置

最后四張圖片很遺憾的是第三次詞云的制作我忘記改代碼導(dǎo)致被覆蓋了 QAQ

第一次

很明顯能夠看出來礁击。。扛或。瘸彤。加了許多沒什么用的詞語加入停用詞表

第二次

少了很多但是依舊沒有繼續(xù)加入停用詞表

第三次

這么一看似乎差不多了但是其實(shí)是... ...第四次的也就是說中間還有一次停用詞表的更新

第四次

小結(jié)：唔其實(shí)即使是第四次詞云也沒有達(dá)到我原本的打算我原打算這將會(huì)是一張全都是技術(shù)名詞的詞云現(xiàn)在大部分全是虛的品質(zhì) 爬取到的詞條也僅僅接近5千多條離2w條還差的很遠(yuǎn)
還是要繼續(xù)學(xué)習(xí)啊啊啊啊啊啊啊啊啊

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末佩脊，一起剝皮案震驚了整個(gè)濱河市验庙，隨后出現(xiàn)的幾起案子润梯，更是在濱河造成了極大的恐慌过牙，老刑警劉巖甥厦，帶你破解...
沈念sama閱讀 222,807評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異寇钉，居然都是意外死亡刀疙，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,284評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門扫倡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來谦秧，“玉大人，你說我怎么就攤上這事撵溃【卫穑” “怎么了？”我有些...
開封第一講書人閱讀 169,589評(píng)論 0贊 363
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵缘挑，是天一觀的道長(zhǎng)集歇。經(jīng)常有香客問我，道長(zhǎng)语淘，這世上最難降的妖魔是什么诲宇？我笑而不...
開封第一講書人閱讀 60,188評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮惶翻，結(jié)果婚禮上焕窝，老公的妹妹穿的比我還像新娘。我一直安慰自己维贺，他們只是感情好它掂，可當(dāng)我...
茶點(diǎn)故事閱讀 69,185評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著溯泣，像睡著了一般虐秋。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上垃沦，一...
開封第一講書人閱讀 52,785評(píng)論 1贊 314
城市分裂傳說
那天客给，我揣著相機(jī)與錄音，去河邊找鬼肢簿。笑死靶剑，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的池充。我是一名探鬼主播桩引，決...
沈念sama閱讀 41,220評(píng)論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼收夸！你這毒婦竟也來了坑匠？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,167評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤卧惜，失蹤者是張志新（化名）和其女友劉穎厘灼，沒想到半個(gè)月后夹纫，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,698評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡设凹，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,767評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年舰讹，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闪朱。...
茶點(diǎn)故事閱讀 40,912評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡月匣，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出监透，到底是詐尸還是另有隱情，我是刑警寧澤航唆，帶...
沈念sama閱讀 36,572評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布胀蛮，位于F島的核電站，受9級(jí)特大地震影響糯钙，放射性物質(zhì)發(fā)生泄漏粪狼。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,254評(píng)論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一任岸、第九天我趴在偏房一處隱蔽的房頂上張望再榄。院中可真熱鬧，春花似錦享潜、人聲如沸困鸥。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,746評(píng)論 0贊 25
一樁弒父案剑按，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽疾就。三九已至，卻和暖如春艺蝴，著一層夾襖步出監(jiān)牢的瞬間猬腰，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,859評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國(guó)打工猜敢，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留姑荷，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,359評(píng)論 3贊 379
代替公主和親
正文我出身青樓缩擂，卻偏偏與公主長(zhǎng)得像鼠冕，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子胯盯，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,922評(píng)論 2贊 361

招聘需求分析(爬蟲+詞云)

推薦閱讀更多精彩內(nèi)容