Python爬蟲（5）自制簡單的搜索引擎

??平時我們要搜索某個東西的時候薯酝，我們往往會用到百度百科，比如搜“上核猓”吴菠，會出現(xiàn)以下頁面：

百度詞條上海

??那么，我們能不能利用爬蟲浩村，自己制作一個簡單的搜索引擎呢做葵？
??Why not？心墅！我們自作簡單的搜索引擎酿矢，展示輸入詞條的簡介部分，這樣可以既減少工作量怎燥，又展示了該搜索引擎的基本原理瘫筐。
??以下為筆者制作的簡單的搜索引擎，實現(xiàn)的功能為：讀取輸入的詞條铐姚，并輸出百度百科里該詞條的簡介部分策肝。

# -*- coding: utf-8 -*-
"""
Created on Fri Aug 18 15:58:13 2017
@author: JClian
"""
import re
import bs4
import urllib.request  
from bs4 import BeautifulSoup 
import urllib.parse
import sys

search_item = input("Enter what you want(Enter 'out' to exit):")
while search_item != 'out':
    if search_item == 'out':
        exit(0)
    print("please wait...")
    try:
        url = 'https://baike.baidu.com/item/'+urllib.parse.quote(search_item)
        html = urllib.request.urlopen(url)  
        content = html.read().decode('utf-8')
        html.close()
        soup = BeautifulSoup(content, "lxml")  
        text = soup.find('div', class_="lemma-summary").children
        print("search result:")
        for x in text:
            word = re.sub(re.compile(r"<(.+?)>"),'',str(x))
            words = re.sub(re.compile(r"\[(.+?)\]"),'',word)
            print(words,'\n')
    except AttributeError:
        print("Failed!Please enter more in details!")
    search_item = input("Enter what you want(Enter 'out' to exit):")

其中search_item為輸入詞條，進入while循環(huán)可一直搜索隐绵，當(dāng)輸入為'out'時退出之众。text為該詞條的百度百科簡介的網(wǎng)頁形式，通過正則表達式將其中的文字提取出來（當(dāng)然提取后的文字形式還有待美化）依许。如果百度百科里沒有該詞條棺禾，輸出失敗信息，并提示測試這將詞條具體化些再輸入峭跳。這樣膘婶，百度百科有的詞條，我們這個搜索引擎里也就有了響應(yīng)的簡介部分坦康。
??接下來是測試時間（在Jupyter Notebook上測試）：
　　

詞條上海市

詞條南京南京市

詞條井上真央

??測試效果還是不錯的竣付，真是簡單又好使诡延，要不你也來試試滞欠？
　

??本篇分享如有不足之處，還請批評指正肆良。歡迎交流~~
??期待下一篇分享...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末筛璧，一起剝皮案震驚了整個濱河市逸绎，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌夭谤，老刑警劉巖棺牧，帶你破解...
沈念sama閱讀 222,378評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異朗儒，居然都是意外死亡颊乘，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,970評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門醉锄，熙熙樓的掌柜王于貴愁眉苦臉地迎上來乏悄，“玉大人，你說我怎么就攤上這事恳不￠菪。” “怎么了？”我有些...
開封第一講書人閱讀 168,983評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵烟勋，是天一觀的道長规求。經(jīng)常有香客問我，道長卵惦，這世上最難降的妖魔是什么阻肿？我笑而不...
開封第一講書人閱讀 59,938評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮鸵荠，結(jié)果婚禮上冕茅，老公的妹妹穿的比我還像新娘。我一直安慰自己蛹找，他們只是感情好姨伤，可當(dāng)我...
茶點故事閱讀 68,955評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著庸疾，像睡著了一般乍楚。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上届慈，一...
開封第一講書人閱讀 52,549評論 1贊 312
城市分裂傳說
那天徒溪，我揣著相機與錄音，去河邊找鬼金顿。笑死臊泌，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的揍拆。我是一名探鬼主播渠概，決...
沈念sama閱讀 41,063評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了播揪？” 一聲冷哼從身側(cè)響起贮喧，我...
開封第一講書人閱讀 39,991評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎猪狈，沒想到半個月后箱沦，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,522評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡雇庙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,604評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年谓形，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疆前。...
茶點故事閱讀 40,742評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡套耕，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出峡继，到底是詐尸還是另有隱情冯袍，我是刑警寧澤，帶...
沈念sama閱讀 36,413評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布碾牌，位于F島的核電站康愤，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏舶吗。R本人自食惡果不足惜征冷，卻給世界環(huán)境...
茶點故事閱讀 42,094評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望誓琼。院中可真熱鬧检激，春花似錦、人聲如沸腹侣。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,572評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽傲隶。三九已至饺律，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間跺株，已是汗流浹背复濒。一陣腳步聲響...
開封第一講書人閱讀 33,671評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乒省，地道東北人巧颈。一個月前我還...
沈念sama閱讀 49,159評論 3贊 378
代替公主和親
正文我出身青樓，卻偏偏與公主長得像袖扛，于是被迫代替她去往敵國和親砸泛。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,747評論 2贊 361

Python爬蟲（5）自制簡單的搜索引擎

推薦閱讀更多精彩內(nèi)容