利用python抓取pdf單頁面合成文件 2019-08-20

注釋宿刮,已失效沈堡。

import os
import requests
import PyPDF2

make the dir

print(os.getcwd())
print("Please input the day like yyyymmdd:")
date=input()
dir=os.getcwd()+'\'+date

if(not os.path.exists(dir)):
os.makedirs(dir)
os.chdir(dir)

download the page from A001 to M020############

def downpdf(url1,page1):
res=requests.get(url1)
if res.status_code ==200:
with open(page1+".pdf",'wb') as f:
f.write(res.content)
else:
return(False)
print(page1+".pdf has been download!")
return(True)

check the page

page=['A001', 'A002', 'A003', 'A004', 'A005', 'A006', 'A007', 'A008', 'A009', 'A010', 'A011', 'A012', 'A013', 'A014', 'A015', 'A016', 'A017', 'A018', 'A019', 'A020', 'B001', 'B002', 'B003', 'B004', 'B005', 'B006', 'B007', 'B008', 'B009', 'B010', 'B011', 'B012', 'B013', 'B014', 'B015', 'B016', 'B017', 'B018', 'B019', 'B020', 'C001', 'C002', 'C003', 'C004', 'C005', 'C006', 'C007', 'C008', 'C009', 'C010', 'C011', 'C012', 'C013', 'C014', 'C015', 'C016', 'C017', 'C018', 'C019', 'C020', 'D001', 'D002', 'D003', 'D004', 'D005', 'D006', 'D007', 'D008', 'D009', 'D010', 'D011', 'D012', 'D013', 'D014', 'D015', 'D016', 'D017', 'D018', 'D019', 'D020', 'M001', 'M002', 'M003', 'M004', 'M005', 'M006', 'M007', 'M008', 'M009', 'M010', 'M011', 'M012', 'M013', 'M014', 'M015', 'M016', 'M017', 'M018', 'M019', 'M020']
for i in page:
url='http://online.wsj.com/public/resources/documents/print/WSJ_-'+i+'-'+date+'.pdf'
downpdf(url,i)

com='pdftk f:\py\'+date+'\*.pdf cat output f:\py\WSJ'+date+'.pdf'

a=os.system(com)
if a==0:
print("the pdf has been combined!")

if os.system('rmdir /s /q f:\py\'+date)==0:
print("the folden has been delet!")

http://online.wsj.com/public/resources/documents/print/WSJ_-A002-20180906.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末董习,一起剝皮案震驚了整個(gè)濱河市航缀,隨后出現(xiàn)的幾起案子艰山,更是在濱河造成了極大的恐慌涣仿,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嗜桌,死亡現(xiàn)場離奇詭異宋距,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)症脂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淫僻,“玉大人诱篷,你說我怎么就攤上這事■椋” “怎么了棕所?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長悯辙。 經(jīng)常有香客問我琳省,道長,這世上最難降的妖魔是什么躲撰? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任针贬,我火速辦了婚禮,結(jié)果婚禮上拢蛋,老公的妹妹穿的比我還像新娘桦他。我一直安慰自己,他們只是感情好谆棱,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布快压。 她就那樣靜靜地躺著圆仔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蔫劣。 梳的紋絲不亂的頭發(fā)上坪郭,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機(jī)與錄音脉幢,去河邊找鬼歪沃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鸵隧,可吹牛的內(nèi)容都是我干的绸罗。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼豆瘫,長吁一口氣:“原來是場噩夢啊……” “哼珊蟀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起外驱,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤育灸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后昵宇,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體磅崭,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年瓦哎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了砸喻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蒋譬,死狀恐怖割岛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情犯助,我是刑警寧澤癣漆,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站剂买,受9級特大地震影響惠爽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞬哼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一婚肆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧倒槐,春花似錦旬痹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽永毅。三九已至,卻和暖如春人弓,著一層夾襖步出監(jiān)牢的瞬間沼死,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工崔赌, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留意蛀,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓健芭,卻偏偏與公主長得像县钥,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子慈迈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容