from selenium.webdriver import Chrome
import time
import pandas as pd
from selenium.webdriver.common.by import By
import requests
import json
browser = Chrome()
browser.get("需要抓取的網(wǎng)址")
time.sleep(1)
browser.find_element(By.ID,'username').send_keys('賬號')
browser.find_element(By.ID,'password').send_keys('密碼\n')
time.sleep(5)
browser.switch_to.window(browser.window_handles[-1]) #切換新窗口
#訂單管理/采購訂單
browser.find_element(By.XPATH,'/html/body/div[1]/div/div[1]/div/div[2]/div/div[1]/div/ul[12]/div/div/div').click()
time.sleep(2)
browser.find_element(By.XPATH,'//*[@id="446649214039097388"]/div/div').click()
time.sleep(2)
df = pd.DataFrame()
for i in range(2,10): #翻頁
number = f'/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[2]/div[2]/div/div/div[1]/div[1]/div[2]/div[5]/div[1]/div[2]/span[{i}]'
number_list = browser.find_element(By.XPATH,number).click()
time.sleep(5)
for j in range(2,7): #指定抓取字段
bh_xpath = f'/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[2]/div[2]/div/div/div[1]/div[1]/div[2]/div[4]/div/div[3]/div[1]/div/div[1]/div/table/tr[{j}]/td[2]/div/div'
qd_xpath = f'/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[2]/div[2]/div/div/div[1]/div[1]/div[2]/div[4]/div/div[3]/div[1]/div/div[1]/div/table/tr[{j}]/td[5]/div/div'
bz_xpath = f'/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[2]/div[2]/div/div/div[1]/div[1]/div[2]/div[4]/div/div[3]/div[1]/div/div[1]/div/table/tr[{j}]/td[6]/div/div'
ddly_xpath = f'/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[2]/div[2]/div/div/div[1]/div[1]/div[2]/div[4]/div/div[3]/div[1]/div/div[1]/div/table/tr[{j}]/td[11]/div/div'
bh_list = browser.find_element(By.XPATH, bh_xpath).text.split() # 拼接字符串抓取指定內(nèi)容
qd_list = browser.find_element(By.XPATH,qd_xpath).text.split()
bz_list = browser.find_element(By.XPATH,bz_xpath).text.split()
ddly_list = browser.find_element(By.XPATH,ddly_xpath).text.split()
if not (bz_list): #判斷是否為空
bz_list = [None]
if not(ddly_list):
ddly_list = [None]
for my_list in [bh_list]: #將抓取到的數(shù)據(jù)寫入xlsx表
temp_df = pd.DataFrame({'訂單編號': bh_list,'渠道':qd_list,'備注':bz_list,'訂單來源':ddly_list})
df = pd.concat([df, temp_df], ignore_index=True)
print(bh_list,qd_list,bz_list,ddly_list)
df.to_excel('cehsi.xlsx', index=False)
browser.quit()
#發(fā)送到企業(yè)微信
# 替換為自己的企業(yè)ID修陡、應(yīng)用ID赔癌、應(yīng)用密鑰
corpid = 'you-corpid'
agentid = 'you-agentid'
corpsecret = 'you-corpsecret'
# 獲取access_token
url = f'https://qyapi.weixin.qq.com/cgi-bin/gettoken?corpid={corpid}&corpsecret={corpsecret}'
response = requests.get(url)
access_token = json.loads(response.text)['access_token']
# 上傳文件到素材庫
url = f'https://qyapi.weixin.qq.com/cgi-bin/media/upload?access_token={access_token}&type=file'
file_path = 'you-file_path' #文件地址
with open(file_path, 'rb') as f:
response = requests.post(url, files={'media': f})
media_id = json.loads(response.text)['media_id']
# 發(fā)送應(yīng)用消息
url = f'https://qyapi.weixin.qq.com/cgi-bin/message/send?access_token={access_token}'
data = {
"touser": "@all",
"msgtype": "file",
"agentid": agentid,
"file": {
"media_id": media_id
},
"safe": 0
}
response = requests.post(url, data=json.dumps(data))
print(response.text)
python+selenium+webdriver+requests實現(xiàn)抓取頁面指定內(nèi)容并推送至企業(yè)微信
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來窘行,“玉大人饥追,你說我怎么就攤上這事」蘅” “怎么了但绕?”我有些...
- 文/不壞的土叔 我叫張陵,是天一觀的道長惶看。 經(jīng)常有香客問我捏顺,道長,這世上最難降的妖魔是什么纬黎? 我笑而不...
- 正文 為了忘掉前任幅骄,我火速辦了婚禮,結(jié)果婚禮上本今,老公的妹妹穿的比我還像新娘拆座。我一直安慰自己主巍,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布挪凑。 她就那樣靜靜地躺著孕索,像睡著了一般。 火紅的嫁衣襯著肌膚如雪躏碳。 梳的紋絲不亂的頭發(fā)上搞旭,一...
- 文/蒼蘭香墨 我猛地睜開眼丹诀,長吁一口氣:“原來是場噩夢啊……” “哼钝的!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起铆遭,我...
- 正文 年R本政府宣布,位于F島的核電站阁猜,受9級特大地震影響丸逸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蹦漠,卻給世界環(huán)境...
- 文/蒙蒙 一椭员、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笛园,春花似錦隘击、人聲如沸侍芝。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽州叠。三九已至,卻和暖如春凶赁,著一層夾襖步出監(jiān)牢的瞬間咧栗,已是汗流浹背。 一陣腳步聲響...
推薦閱讀更多精彩內(nèi)容
- 工具需求:Python3 + 企業(yè)微信機(jī)器人第三方庫需求:requests + BeautifulSoup演示環(huán)境...
- 1. 文章目的 當(dāng)我們使用Python爬取網(wǎng)頁數(shù)據(jù)時根欧,往往用的是urllib模塊怜珍,通過調(diào)用urllib模塊的url...
- 斯科特安的時間 對WebElement截圖 WebDriver.Chrome自帶的方法只能對當(dāng)前窗口截屏,且不能指...
- 選擇了適合的網(wǎng)絡(luò)庫 MonkeyLei:Python-網(wǎng)絡(luò)基本工具庫urllib亭罪、urllib2和requests...
- python的爬蟲相關(guān)模塊有很多,除了requests模塊歼秽,再如urllib和pycurl以及tornado等应役。相...