通過(guò)Ajax請(qǐng)求的網(wǎng)頁(yè)數(shù)據(jù)采集詳解

Ajax = 異步JavaScript和XML標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言

Ajax 是一種用于創(chuàng)建快速動(dòng)態(tài)網(wǎng)頁(yè)的技術(shù)澈侠。

Ajax是一種在無(wú)需重新加載整個(gè)網(wǎng)頁(yè)的情況下眠蚂,能夠更新部分網(wǎng)頁(yè)的技術(shù)。

對(duì)于使用Ajax返回的數(shù)據(jù)我們通常有兩種方式采集數(shù)據(jù)

  • 使用自動(dòng)化測(cè)試工具chromedriver進(jìn)行采集
  • 通過(guò)抓包找到網(wǎng)頁(yè)發(fā)送Ajax發(fā)送請(qǐng)求并返回的數(shù)據(jù)



    查看返回的數(shù)據(jù)格式,通過(guò)對(duì)數(shù)據(jù)處理采集我們想要的數(shù)據(jù)

目標(biāo)網(wǎng)址:全球視野的中文財(cái)經(jīng)網(wǎng)站fx168
目標(biāo)數(shù)據(jù):采集美元指數(shù)、上證指數(shù)隧哮、深證成指、恒生指數(shù)座舍、現(xiàn)貨黃金沮翔、布蘭特原油、標(biāo)普500曲秉、離岸匯率的每日價(jià)格及漲跌幅

  • 使用自動(dòng)化測(cè)試工具來(lái)抓取數(shù)據(jù)信息
import requests
import pymongo
import datetime
from lxml import etree
from selenium import webdriver
from common.pgutils import get_conn


sql_truncate = "truncate TABLE public.news_morning_code"
sql = "insert into public.news_morning_code(TradeName,TradePrice,ChangePre,create_time) values(%s,%s,%s,%s)"


def insert_data(conn, name, present_price, rise_fall):
    current_date = datetime.datetime.now()
    present_price = float(present_price)
    rise_fall = float(rise_fall.split('(')[1][:-2])
    with conn.cursor() as cur:
        sql_params = [name, present_price, rise_fall, current_date]
        cur.execute(sql, sql_params)


def get_usdcny(conn):
    """離岸匯率"""
    # client = pymongo.MongoClient('localhost', 27017)
    # news = client['news']
    # cj_zs = news['cj_zs']
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/USDCNY/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    # data = {
    #     'name': name,
    #     'present_price': present_price,
    #     'rise_fall': rise_fall,
    # }
    # cj_zs.insert_one(data)
    driver.close()
    driver.quit()
    print('在岸匯率存儲(chǔ)成功')


def get_shcomp(conn):
    """上證綜指"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/SHCOMP/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('上證綜指存儲(chǔ)成功')


def get_szcomp(conn):
    """深圳成指"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/SZCOMP/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('深圳成指存儲(chǔ)成功')


def get_hsi(conn):
    """恒生指數(shù)"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/HSI/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('恒生指數(shù)存儲(chǔ)成功')


def get_dini(conn):
    """美元指數(shù)"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/DINI/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('美元指數(shù)存儲(chǔ)成功')


def get_xau(conn):
    """現(xiàn)貨黃金"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/XAU/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('現(xiàn)貨黃金存儲(chǔ)成功')


def get_spciw(conn):
    """標(biāo)普500"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/SPCIW/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    present_price = xml.xpath('/html/body/section[1]/div/div/div[2]/div[1]/div/div[1]/h3/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print('標(biāo)普500', present_price, rise_fall)
    name = '標(biāo)普500'
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('標(biāo)普500存儲(chǔ)成功')


def get_brents(conn):
    """布蘭特油"""
    chromedriver = r"/usr/local/share/chromedriver"
    driver = webdriver.Chrome(chromedriver)
    driver.get('http://quote.fx168.com/BRENTS/')
    result = driver.page_source
    xml = etree.HTML(result)
    datas = xml.xpath(".//div[@class='yjl_fx168_Hangqing_dataDel_zuo']")[0]
    name = datas.xpath('./h2/span/text()')[0]
    present_price = xml.xpath('//*[@id="hangh3"]/span')[0].xpath('string(.)')  # 現(xiàn)價(jià)
    rise_fall = datas.xpath("./h3/b/text()")[0]    # 當(dāng)日漲跌
    print(name, present_price, rise_fall)
    insert_data(conn, name, present_price, rise_fall)
    driver.close()
    driver.quit()
    print('布蘭特油存儲(chǔ)成功')


def main():
    conn = get_conn()
    try:
        with conn:
            with conn.cursor() as cur:
                cur.execute(sql_truncate)
            get_usdcny(conn)
            get_shcomp(conn)
            get_szcomp(conn)
            get_hsi(conn)
            get_dini(conn)
            get_xau(conn)
            get_spciw(conn)
            get_brents(conn)
    finally:
        if conn:
            conn.close()

if __name__ == '__main__':
    main()
  • 分析網(wǎng)頁(yè)結(jié)構(gòu)及數(shù)據(jù)返回的方法采蚀,采集數(shù)據(jù)
#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 17-12-12

@author: Xu
"""
import json
import requests
import time
import datetime
from common.pgutils import get_conn


def get_json():
    url = 'http://fx168api.fx168.com/InterfaceCollect/Default.aspx?Code=fx168&bCode=IQuoteDataALL&succ_callback=show_whdata&_=1512984141823'
    my_headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
        'Host': 'fx168api.fx168.com',
        'Referer': 'http://quote.fx168.com/BRENTS/',
    }
    current_time = int(time.time())
    current_date = datetime.datetime.now()
    datas = {
        'Code': 'fx168',
        'bCode':'IQuoteDataALL',
        'succ_callback': 'show_whdata',
        '_': current_time
    }
    cont = requests.get(url=url, headers=my_headers, data=datas)
    cont.encoding = 'utf-8'
    result = cont.text
    content = result[12:-1]
    info = json.loads(content)['List']
    # print(info)
    sql_truncate = "truncate TABLE public.news_morning_code"
    sql = "insert into public.news_morning_code(TradeName,TradePrice,ChangePre,create_time) values(%s,%s,%s,%s)"
    # 0:美元指數(shù) 30:上證指數(shù) 74:深證成指  76:恒生指數(shù)  19:現(xiàn)貨黃金  73:布蘭特原油  29:標(biāo)普500  45:離岸匯率
    code_list = [0, 30, 74, 76, 19, 73, 29, 45]
    conn = get_conn()
    try:
        with conn:
            with conn.cursor() as cur:
                cur.execute(sql_truncate)
                for i in code_list:
                    sql_params = [info[i]['TradeName'], info[i]['TradePrice'], info[i]['ChangePre'], current_date]
                    # print(sql_params)
                    cur.execute(sql, sql_params)
    finally:
        if conn:
            conn.close()

if __name__ == '__main__':
    get_json()

  • 連接postgresql數(shù)據(jù)庫(kù)疲牵,保存數(shù)據(jù)
#!/usr/bin/env python3.4
# encoding: utf-8
"""
Created on 17-12-12

@author: Xu
"""
import psycopg2


def get_conn():
    database = '數(shù)據(jù)庫(kù)名'
    user = '用戶名'
    password = '密碼'
    host = 'ip地址'
    port = '5432'
    return psycopg2.connect(database=database, user=user, password=password, host=host, port=port)
數(shù)據(jù)展示

這兩種方式從效率上來(lái)講顯然第二種更快捷,兩者的差別是第一種需要解析html的結(jié)構(gòu)取得數(shù)據(jù)榆鼠,而第二種可以直接對(duì)返回的數(shù)據(jù)進(jìn)行處理進(jìn)而保存我們想要的數(shù)據(jù)瑰步。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市璧眠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌读虏,老刑警劉巖责静,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異盖桥,居然都是意外死亡灾螃,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門揩徊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)腰鬼,“玉大人,你說(shuō)我怎么就攤上這事塑荒∠ㄉ模” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵齿税,是天一觀的道長(zhǎng)彼硫。 經(jīng)常有香客問(wèn)我,道長(zhǎng)凌箕,這世上最難降的妖魔是什么拧篮? 我笑而不...
    開(kāi)封第一講書人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮牵舱,結(jié)果婚禮上串绩,老公的妹妹穿的比我還像新娘。我一直安慰自己芜壁,他們只是感情好礁凡,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著沿盅,像睡著了一般把篓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上腰涧,一...
    開(kāi)封第一講書人閱讀 49,031評(píng)論 1 285
  • 那天韧掩,我揣著相機(jī)與錄音,去河邊找鬼窖铡。 笑死疗锐,一個(gè)胖子當(dāng)著我的面吹牛坊谁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播滑臊,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼口芍,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了雇卷?” 一聲冷哼從身側(cè)響起鬓椭,我...
    開(kāi)封第一講書人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎关划,沒(méi)想到半個(gè)月后小染,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贮折,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年裤翩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片调榄。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡踊赠,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出每庆,到底是詐尸還是另有隱情筐带,我是刑警寧澤,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布缤灵,位于F島的核電站烫堤,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏凤价。R本人自食惡果不足惜鸽斟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望利诺。 院中可真熱鬧富蓄,春花似錦、人聲如沸慢逾。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)侣滩。三九已至口注,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間君珠,已是汗流浹背寝志。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人材部。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓毫缆,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親乐导。 傳聞我的和親對(duì)象是個(gè)殘疾皇子苦丁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容