股票數(shù)據(jù)定向爬蟲

項(xiàng)目基本信息
目標(biāo)：獲取上交所和深交所所有股票的名稱和交易信息
輸出：保存到文件中

候選數(shù)據(jù)網(wǎng)站的選擇：
新浪股票：http://finance.sina.com.cn/stock/
百度股票：https://gupiao.baidu.com/stock/

選取原則：股票信息靜態(tài)存在 HTML 頁面中坪仇，非 js 代碼生成沒有 Robots 協(xié)議限制
選取方法：瀏覽器 F12喻粹，源代碼查看等
選取心態(tài)：不要糾結(jié)于某個(gè)網(wǎng)站萧吠，多找信息源嘗試

數(shù)據(jù)網(wǎng)站的確定
獲取股票列表
東方財(cái)富網(wǎng)：http://quote.eastmoney.com/stocklist.html

獲取個(gè)股信息
百度股票：https://gupiao.baiducom/stock/
單個(gè)股票：https://gupiao.baiducom/stock/sz002439.html

程序的結(jié)構(gòu)設(shè)計(jì)
步驟1：從東方財(cái)富網(wǎng)獲取股票列表
步驟2：根據(jù)股票列表逐個(gè)到百度股票獲取個(gè)股信息
步驟3：將結(jié)果存儲(chǔ)到文件

網(wǎng)頁結(jié)構(gòu)特點(diǎn)
a) 個(gè)股信息采用鍵值對(duì)維護(hù)

b) 東方財(cái)富網(wǎng)：http://quote.eastmoney.com/stocklist.html

實(shí)例編寫

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

def getStockInfo(lst, stockURL, fpath):
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})

            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱': name.text.split()[0]})
            
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
        except:
            traceback.print_exc()
            continue

def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)

main()

實(shí)例優(yōu)化

如何提高用戶體驗(yàn)?

速度提高：編碼識(shí)別的優(yōu)化

r.apparent_encoding 需要分析文本店展，運(yùn)行較慢荷鼠，可輔助人工分析

體驗(yàn)提高：增加動(dòng)態(tài)進(jìn)度顯示

優(yōu)化后的代碼：

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url, code="utf-8"):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

def getStockList(lst, stockURL):
    html = getHTMLText(stockURL, "GB2312")
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})

            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名稱': name.text.split()[0]})
            
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r當(dāng)前進(jìn)度: {:.2f}%".format(count*100/len(lst)),end="")
        except:
            count = count + 1
            print("\r當(dāng)前進(jìn)度: {:.2f}%".format(count*100/len(lst)),end="")
            continue

def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)

main()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市日杈，隨后出現(xiàn)的幾起案子嗤栓，更是在濱河造成了極大的恐慌，老刑警劉巖治唤，帶你破解...
沈念sama閱讀 212,185評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件棒动，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡宾添，警方通過查閱死者的電腦和手機(jī)迁客，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,445評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來辞槐，“玉大人，你說我怎么就攤上這事粘室￠剩” “怎么了？”我有些...
開封第一講書人閱讀 157,684評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵衔统，是天一觀的道長鹿榜。經(jīng)常有香客問我，道長锦爵，這世上最難降的妖魔是什么舱殿？我笑而不...
開封第一講書人閱讀 56,564評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮险掀，結(jié)果婚禮上沪袭，老公的妹妹穿的比我還像新娘。我一直安慰自己樟氢，他們只是感情好冈绊，可當(dāng)我...
茶點(diǎn)故事閱讀 65,681評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布侠鳄。她就那樣靜靜地躺著，像睡著了一般死宣。火紅的嫁衣襯著肌膚如雪伟恶。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,874評(píng)論 1贊 290
城市分裂傳說
那天毅该，我揣著相機(jī)與錄音博秫，去河邊找鬼。笑死眶掌，一個(gè)胖子當(dāng)著我的面吹牛挡育，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播畏线，決...
沈念sama閱讀 39,025評(píng)論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼静盅，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了寝殴？” 一聲冷哼從身側(cè)響起蒿叠，我...
開封第一講書人閱讀 37,761評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎蚣常，沒想到半個(gè)月后市咽，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,217評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡抵蚊，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,545評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年施绎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贞绳。...
茶點(diǎn)故事閱讀 38,694評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡谷醉，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出冈闭，到底是詐尸還是另有隱情俱尼，我是刑警寧澤，帶...
沈念sama閱讀 34,351評(píng)論 4贊 332
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布萎攒，位于F島的核電站遇八，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏耍休。R本人自食惡果不足惜刃永，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,988評(píng)論 3贊 315
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望羊精。院中可真熱鬧斯够，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,778評(píng)論 0贊 21
一樁弒父案劫灶，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至掖桦，卻和暖如春本昏，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背枪汪。一陣腳步聲響...
開封第一講書人閱讀 32,007評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工涌穆，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人雀久。一個(gè)月前我還...
沈念sama閱讀 46,427評(píng)論 2贊 360
代替公主和親
正文我出身青樓宿稀，卻偏偏與公主長得像，于是被迫代替她去往敵國和親赖捌。傳聞我的和親對(duì)象是個(gè)殘疾皇子祝沸，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,580評(píng)論 2贊 349

股票數(shù)據(jù)定向爬蟲

推薦閱讀更多精彩內(nèi)容