Python 3 爬蟲學(xué)習(xí)筆記 9 存儲鏈接至mysql并檢索任意兩個鏈接之間的路徑

此學(xué)習(xí)筆記整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 8 Reading and writing natural languages

天啦嚕传透！這個筆記真是讓人興奮不已啊其弊！代碼寫得太好了作者衅谷。不多說了椒拗，上代碼和解釋。

1会喝，首先陡叠，新建database玩郊，這一段代碼直接在mysql里寫的。

值得學(xué)習(xí)的地方有：1）并沒有create database Wikipedia枉阵；這個過程译红，直接上table，然后后面跟著‘Wikipedia’.‘pages’.厲害了兴溜，我的書侦厚。

然后依次是名稱，類型拙徽，默認(rèn)值刨沦，還有其他，比如第一個是自動增加膘怕，第三個是系統(tǒng)時間想诅。

最后加上primary key是哪一個。

2. 開始從wiki的一個頁面開始爬取wiki內(nèi)部鏈接并存儲起來岛心。

從上面的database結(jié)構(gòu)我們可以看出来破，存儲的內(nèi)容主要分為兩個部分：鏈接地址url和鏈接之間的關(guān)系（links from onepage to the other one）

Note:conn那一行需要自己修改下

還是一個函數(shù)一個函數(shù)看吧。

insertpageifnotexits函數(shù)

在數(shù)據(jù)庫找url這個鏈接忘古，如果沒有（rowcount=0）,那就把這個鏈接存到database里面的pages徘禁。cur.commit() 確認(rèn)更改。返回pages的最后一行髓堪，就是我們新存進去的那個鏈接所在的行送朱。如果存在的話就返回cur.fetchone()[0],這個【0】是代表pages這個table的第一列即是id這一列。id是自動編號的干旁，所以id的值等于其所在行的行數(shù)驶沼。

insertLink函數(shù)

看鏈接是否存在，如果不存在插入并確認(rèn)保存疤孕。跟上面一個函數(shù)類似商乎，就不多說了。

getLinks函數(shù)

先看打開這個一個站點祭阀，找到所有的內(nèi)部鏈接，然后是把內(nèi)部鏈接存儲起來鲜戒，再把link存儲起來专控。然后空的pages，如果發(fā)現(xiàn)的新頁面沒有研究過再進入這個新頁面并向下一層.最多向下走4層遏餐，總共走到第5層（第5層也分析了伦腐。）。

這個getlinks也可以這么寫失都。

P.S.：沒能上車的小伙伴歡迎留言柏蘑，如果我會我直接回答你幸冻！如果不會，我谷歌后回答你咳焚！如果要加我微信洽损，不行。

最后編輯于：2017.12.05 11:58:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末革半，一起剝皮案震驚了整個濱河市碑定，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌又官，老刑警劉巖延刘，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異六敬，居然都是意外死亡碘赖，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門外构，熙熙樓的掌柜王于貴愁眉苦臉地迎上來崖疤，“玉大人，你說我怎么就攤上這事典勇〗俸撸” “怎么了？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵割笙，是天一觀的道長权烧。經(jīng)常有香客問我，道長伤溉，這世上最難降的妖魔是什么般码？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮乱顾，結(jié)果婚禮上板祝，老公的妹妹穿的比我還像新娘。我一直安慰自己走净，他們只是感情好券时，可當(dāng)我...
茶點故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著伏伯，像睡著了一般橘洞。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上说搅，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天炸枣，我揣著相機與錄音，去河邊找鬼。笑死适肠，一個胖子當(dāng)著我的面吹牛霍衫，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播侯养，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼敦跌，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了沸毁？” 一聲冷哼從身側(cè)響起峰髓，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎息尺，沒想到半個月后携兵，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡搂誉，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年徐紧，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片炭懊。...
茶點故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡并级，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出侮腹，到底是詐尸還是另有隱情嘲碧，我是刑警寧澤，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布父阻，位于F島的核電站愈涩，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏加矛。R本人自食惡果不足惜履婉，卻給世界環(huán)境...
茶點故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望斟览。院中可真熱鬧毁腿，春花似錦、人聲如沸苛茂。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽味悄。三九已至草戈，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間侍瑟，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留涨颜，地道東北人费韭。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像庭瑰，于是被迫代替她去往敵國和親星持。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,884評論 2贊 354

Python 3 爬蟲學(xué)習(xí)筆記 9 存儲鏈接至mysql并檢索任意兩個鏈接之間的路徑

推薦閱讀更多精彩內(nèi)容