python3 一個(gè)簡(jiǎn)單的爬蟲-pubmed批量搜索

很久沒寫了，看看以前的代碼頗為不堪回首
anyway，我已非吳下阿蒙钉迷！
雖然這個(gè)真的很簡(jiǎn)單就是了

一、知識(shí)點(diǎn)

1钠署、 python 好用小技巧

如何在文本中插入變量糠聪？
f'文本內(nèi)容{插入的變量}'
舉例：

print(f'你搜索的{keyword}沒有結(jié)果')

如何去除前后莫名其妙的空格換行？
string.strip()
舉例：

name = 'csapp book \n'
print(name.strip()) #'csapp book'

2谐鼎、beautifulsoup4 & requests庫(kù)

誰(shuí)用誰(shuí)知道舰蟆，簡(jiǎn)單好用，詳情網(wǎng)上沖浪plz

3狸棍、如何下手

這是爬蟲的核心身害，我的思路一般是：

1、請(qǐng)求部分-得到數(shù)據(jù)

在f12里找到針對(duì)的url和參數(shù)
通過請(qǐng)求測(cè)試請(qǐng)求和參數(shù)
用requests進(jìn)行請(qǐng)求

2草戈、處理部分-處理數(shù)據(jù)

用bs4庫(kù)解析html塌鸯，這個(gè)真的很好用
確定輸出的格式，保存到文件唐片，盡量用txt吧丙猬，其他格式真是折磨人
或者有時(shí)候不需要解析涨颜，用re（即正則表達(dá)式）處理一下就行

二、源碼代碼

# -*- coding: utf-8 -*
# 請(qǐng)先在命令行運(yùn)行：pip install requests beautifulsoup4
# 輸入文件請(qǐng)?jiān)谕夸浵滦陆╨ist.txt
# 多個(gè)關(guān)鍵詞請(qǐng)用+連接(例如 ISG15+mRNA+metabolite)
# 輸出文件為同目錄下的output.txt
import requests
from bs4 import BeautifulSoup

def get_pubmed(keyword, page, file):
    """
    參數(shù):
        keyword - 搜索的關(guān)鍵詞
        page - 搜索的頁(yè)數(shù)
        file - 輸出文件
    """
    url = 'https://pubmed.ncbi.nlm.nih.gov'
    rep = requests.get(f'{url}/?term={keyword}&page={page}')
    html = BeautifulSoup(rep.text, features='html.parser')
    li = html.find_all(class_='docsum-title')
    if len(li):
        for index, item in enumerate(li):
            file.write(f"{index+1+(page-1)*10}\t{url}{item['href']}\t{item.text.strip()}\n")
        print(f'get {keyword} page {page} success')
        return True
    return False

def main(inp_file, out_file, pages, mode):
    """
    參數(shù):
        inp_file - 輸入文件
        out_file - 輸出文件
        pages - 搜索頁(yè)數(shù)
        mode - 輸出模式 a/w 追加/覆寫
    """
    print(f'read file {inp_file}, save result in {out_file}')
    outfile = open(out_file, mode)
    with open(inp_file, 'r') as file:
        keyword= file.readline().strip()
        while keyword:
            outfile.write(f'search word: {keyword}\n')
            for page in range(pages):
                if not get_pubmed(keyword, page+1, outfile):
                    if page==0:
                        outfile.write(f'\t{keyword} has no result find')
                        print(f'\t{keyword} has no result find')
                    break
            keyword = file.readline().strip()
    outfile.close()
    print('done')

main('list.txt', 'output.txt', 5, 'w')

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末茧球，一起剝皮案震驚了整個(gè)濱河市庭瑰，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌袜腥，老刑警劉巖见擦，帶你破解...
沈念sama閱讀 216,470評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異羹令，居然都是意外死亡鲤屡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,393評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門福侈，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)酒来，“玉大人，你說(shuō)我怎么就攤上這事肪凛⊙吆海” “怎么了？”我有些...
開封第一講書人閱讀 162,577評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵伟墙，是天一觀的道長(zhǎng)翘鸭。經(jīng)常有香客問我，道長(zhǎng)戳葵，這世上最難降的妖魔是什么就乓？我笑而不...
開封第一講書人閱讀 58,176評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮拱烁，結(jié)果婚禮上生蚁，老公的妹妹穿的比我還像新娘。我一直安慰自己戏自，他們只是感情好邦投，可當(dāng)我...
茶點(diǎn)故事閱讀 67,189評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著擅笔，像睡著了一般志衣。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上猛们，一...
開封第一講書人閱讀 51,155評(píng)論 1贊 299
城市分裂傳說(shuō)
那天念脯，我揣著相機(jī)與錄音，去河邊找鬼阅懦。笑死和二，一個(gè)胖子當(dāng)著我的面吹牛徘铝，可吹牛的內(nèi)容都是我干的耳胎。我是一名探鬼主播惯吕，決...
沈念sama閱讀 40,041評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼怕午！你這毒婦竟也來(lái)了废登？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,903評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤郁惜，失蹤者是張志新（化名）和其女友劉穎堡距，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體兆蕉，經(jīng)...
沈念sama閱讀 45,319評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡羽戒，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,539評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了虎韵。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片易稠。...
茶點(diǎn)故事閱讀 39,703評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖包蓝，靈堂內(nèi)的尸體忽然破棺而出驶社，到底是詐尸還是另有隱情，我是刑警寧澤测萎，帶...
沈念sama閱讀 35,417評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布亡电，位于F島的核電站，受9級(jí)特大地震影響硅瞧，放射性物質(zhì)發(fā)生泄漏份乒。R本人自食惡果不足惜匹摇，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,013評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一飒赃、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧熏矿，春花似錦四苇、人聲如沸孝凌。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,664評(píng)論 0贊 22
一樁弒父案月腋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蟀架。三九已至，卻和暖如春榆骚，著一層夾襖步出監(jiān)牢的瞬間片拍，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,818評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工妓肢，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捌省，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,711評(píng)論 2贊 368
代替公主和親
正文我出身青樓碉钠，卻偏偏與公主長(zhǎng)得像纲缓，于是被迫代替她去往敵國(guó)和親卷拘。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,601評(píng)論 2贊 353

python3 一個(gè)簡(jiǎn)單的爬蟲-pubmed批量搜索

一、 知識(shí)點(diǎn)

1钠署、 python 好用小技巧

2谐鼎、beautifulsoup4 & requests庫(kù)

3狸棍、如何下手

二、 源碼代碼

推薦閱讀更多精彩內(nèi)容

一、知識(shí)點(diǎn)

二、源碼代碼