Python爬蟲(5)自制簡單的搜索引擎

??平時我們要搜索某個東西的時候薯酝,我們往往會用到百度百科,比如搜“上核猓”吴菠,會出現(xiàn)以下頁面:


百度詞條 上海

??那么,我們能不能利用爬蟲浩村,自己制作一個簡單的搜索引擎呢做葵?
??Why not?心墅!我們自作簡單的搜索引擎酿矢,展示輸入詞條的簡介部分,這樣可以既減少工作量怎燥,又展示了該搜索引擎的基本原理瘫筐。
??以下為筆者制作的簡單的搜索引擎,實現(xiàn)的功能為:讀取輸入的詞條铐姚,并輸出百度百科里該詞條的簡介部分策肝。

# -*- coding: utf-8 -*-
"""
Created on Fri Aug 18 15:58:13 2017
@author: JClian
"""
import re
import bs4
import urllib.request  
from bs4 import BeautifulSoup 
import urllib.parse
import sys

search_item = input("Enter what you want(Enter 'out' to exit):")
while search_item != 'out':
    if search_item == 'out':
        exit(0)
    print("please wait...")
    try:
        url = 'https://baike.baidu.com/item/'+urllib.parse.quote(search_item)
        html = urllib.request.urlopen(url)  
        content = html.read().decode('utf-8')
        html.close()
        soup = BeautifulSoup(content, "lxml")  
        text = soup.find('div', class_="lemma-summary").children
        print("search result:")
        for x in text:
            word = re.sub(re.compile(r"<(.+?)>"),'',str(x))
            words = re.sub(re.compile(r"\[(.+?)\]"),'',word)
            print(words,'\n')
    except AttributeError:
        print("Failed!Please enter more in details!")
    search_item = input("Enter what you want(Enter 'out' to exit):")

其中search_item為輸入詞條,進入while循環(huán)可一直搜索隐绵,當(dāng)輸入為'out'時退出之众。text為該詞條的百度百科簡介的網(wǎng)頁形式,通過正則表達式將其中的文字提取出來(當(dāng)然提取后的文字形式還有待美化)依许。如果百度百科里沒有該詞條棺禾,輸出失敗信息,并提示測試這將詞條具體化些再輸入峭跳。這樣膘婶,百度百科有的詞條,我們這個搜索引擎里也就有了響應(yīng)的簡介部分坦康。
??接下來是測試時間(在Jupyter Notebook上測試):
  

詞條 上海市

  
詞條 南京 南京市

  
詞條 井上真央

??測試效果還是不錯的竣付,真是簡單又好使诡延,要不你也來試試滞欠?
 

??本篇分享如有不足之處,還請批評指正肆良。歡迎交流~~
??期待下一篇分享...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末筛璧,一起剝皮案震驚了整個濱河市逸绎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌夭谤,老刑警劉巖棺牧,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異朗儒,居然都是意外死亡颊乘,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進店門醉锄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來乏悄,“玉大人,你說我怎么就攤上這事恳不¢菪。” “怎么了?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵烟勋,是天一觀的道長规求。 經(jīng)常有香客問我,道長卵惦,這世上最難降的妖魔是什么阻肿? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮鸵荠,結(jié)果婚禮上冕茅,老公的妹妹穿的比我還像新娘。我一直安慰自己蛹找,他們只是感情好姨伤,可當(dāng)我...
    茶點故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著庸疾,像睡著了一般乍楚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上届慈,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天徒溪,我揣著相機與錄音,去河邊找鬼金顿。 笑死臊泌,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的揍拆。 我是一名探鬼主播渠概,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了播揪?” 一聲冷哼從身側(cè)響起贮喧,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎猪狈,沒想到半個月后箱沦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡雇庙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年谓形,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疆前。...
    茶點故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡套耕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出峡继,到底是詐尸還是另有隱情冯袍,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布碾牌,位于F島的核電站康愤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏舶吗。R本人自食惡果不足惜征冷,卻給世界環(huán)境...
    茶點故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望誓琼。 院中可真熱鬧检激,春花似錦、人聲如沸腹侣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽傲隶。三九已至饺律,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間跺株,已是汗流浹背复濒。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乒省,地道東北人巧颈。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像袖扛,于是被迫代替她去往敵國和親砸泛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,747評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 搜索引擎優(yōu)化(Search engine optimization,簡稱SEO)晾嘶,指為了提升網(wǎng)頁在搜索引擎自然搜索...
    翻滾吧海闊天空閱讀 4,013評論 5 14
  • 在曾經(jīng)惶惶不安的歲月里,我們就像是一抹朝陽娶吞,無憂無慮垒迂,只知道給世界帶去新生迎接歡樂《噬撸可是當(dāng)越長大机断,經(jīng)歷的越多,就越...
    柒如也閱讀 963評論 2 3
  • 個人成長抄模100天# 002天/100天 by 月夜吸血鬼 過程記錄 日期:2017年12月9日07:35:02...
    思銳愛知識閱讀 136評論 1 0
  • 溫暖孵化不出堅韌/柔軟塑造不出挺拔/歲月不斷拖走你的東西/終會全部打包奉還绣夺。 ...
    文學(xué)社成員閱讀 611評論 0 0
  • 什么是設(shè)計模式 小說家和劇本作家很少從頭開始設(shè)計劇情吏奸。他們總是沿襲一些業(yè)已存在的模式像“悲劇性英雄”模式(《哈姆雷...
    Terry閱讀 842評論 0 47