python爬蟲筆記-weki數(shù)據(jù)傳入數(shù)據(jù)庫

#from urllib import request

from urllib.request import urlopen

#from urllib.request import Request

from urllib import parse

from bs4 import BeautifulSoup

import re

import pymysql.cursors

resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")

soup = BeautifulSoup(resp,"html.parser")

listUrls = soup.find_all("a",href=re.compile("^/wiki/")) #采集數(shù)據(jù)的關鍵边臼,找出/wiki/的鏈接

# print(listUrls)

for urlin listUrls:

if not re.search("\.(jpg|JPG)$",url["href"]):

print(url.get_text(),"-------","https://en.wikipedia.org" + url["href"])

#連接數(shù)據(jù)庫

? ? connection = pymysql.connect(

host ='localhost',

? ? user ='root',

? ? password ='123456',

? ? db ='wikiurl',

? ? charset ='utf8mb4')#utf-8編碼的擴展集

? ? try:#獲取會話指針

? ? ? with connection.cursor()as cursor:

#創(chuàng)建sql語句

? ? ? ? sql ="insert into `urls`(`urlname`,`urlhref`)values(%s,%s)"

? ? ? ? ? ? #執(zhí)行sql語句

? ? ? ? cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org" + url["href"]))

#提交

? ? ? ? connection.commit()

finally:

connection.close()



創(chuàng)建表的時候注意urlhref的設置255字符長度可能不夠,設置1000.

主鍵和自增的設置。



修改后。不會把.JPG的條目存入數(shù)據(jù)庫中。

#from urllib import request

from urllib.requestimport urlopen

#from urllib.request import Request

from urllib import parse

from bs4 import BeautifulSoup

import re

import pymysql.cursors

resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")

soup = BeautifulSoup(resp,"html.parser")

listUrls = soup.find_all("a",href=re.compile("^/wiki/"))

# print(listUrls)

for urlin listUrls:

if not re.search("\.(jpg|JPG)$",url["href"]):

print(url.get_text(),"-------","https://en.wikipedia.org" + url["href"])

#連接數(shù)據(jù)庫

? ? connection = pymysql.connect(

host ='localhost',

? ? user ='root',

? ? password ='123456',

? ? db ='wikiurl',

? ? charset ='utf8mb4')#utf-8編碼的擴展集

? ? try:#獲取會話指針

? ? ? with connection.cursor()as cursor:

#創(chuàng)建sql語句

# for url in listUrls:

? ? ? ? if not re.search("\.(jpg|JPG)$", url["href"]): ? #修改的地方,不會把.JPG的條目存入數(shù)據(jù)庫中。

sql ="insert into `urls`(`urlname`,`urlhref`)values(%s,%s)"

? ? ? ? ? ? #執(zhí)行sql語句

? ? ? ? cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org" + url["href"]))

#提交

? ? ? ? connection.commit()

finally:

connection.close()

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末议经,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子丙曙,更是在濱河造成了極大的恐慌爸业,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亏镰,死亡現(xiàn)場離奇詭異扯旷,居然都是意外死亡,警方通過查閱死者的電腦和手機索抓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門钧忽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來毯炮,“玉大人,你說我怎么就攤上這事耸黑√壹澹” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵大刊,是天一觀的道長为迈。 經(jīng)常有香客問我,道長缺菌,這世上最難降的妖魔是什么葫辐? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮伴郁,結果婚禮上耿战,老公的妹妹穿的比我還像新娘。我一直安慰自己焊傅,他們只是感情好剂陡,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著狐胎,像睡著了一般鸭栖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上顽爹,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天纤泵,我揣著相機與錄音,去河邊找鬼镜粤。 笑死,一個胖子當著我的面吹牛玻褪,可吹牛的內容都是我干的肉渴。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼带射,長吁一口氣:“原來是場噩夢啊……” “哼同规!你這毒婦竟也來了?” 一聲冷哼從身側響起窟社,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤券勺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后灿里,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體关炼,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年匣吊,在試婚紗的時候發(fā)現(xiàn)自己被綠了儒拂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寸潦。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖社痛,靈堂內的尸體忽然破棺而出见转,到底是詐尸還是另有隱情,我是刑警寧澤蒜哀,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布斩箫,位于F島的核電站,受9級特大地震影響撵儿,放射性物質發(fā)生泄漏校焦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一统倒、第九天 我趴在偏房一處隱蔽的房頂上張望寨典。 院中可真熱鬧,春花似錦房匆、人聲如沸耸成。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽井氢。三九已至,卻和暖如春岳链,著一層夾襖步出監(jiān)牢的瞬間花竞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工掸哑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留约急,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓苗分,卻偏偏與公主長得像厌蔽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子摔癣,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內容