在制作電子病歷全文索引時(shí)凌箕,需要建立索引,索引是根據(jù)索引詞建立的词渤,現(xiàn)有索引詞匱乏牵舱,不能滿足需求,搜尋之后缺虐,發(fā)現(xiàn)搜狗輸入法的醫(yī)學(xué)詞庫很龐大芜壁,所以,想著自學(xué)寫一個(gè)Python腳本高氮,完成詞庫的自動(dòng)下載工作慧妄。
正文
分析參考資料代碼
通過分析代碼發(fā)現(xiàn),思路是:
- 獲取分類鏈接
- 獲取該分類的分頁鏈接
- 獲取該頁下載鏈接-->生成一個(gè)list
- 通過list下載內(nèi)容
所需模塊知識(shí)補(bǔ)充
1剪芍、requests和BeautifulSoup模塊(分類塞淹、分頁、下載鏈接都涉及)
- 爬取網(wǎng)頁過程
- 獲取網(wǎng)頁數(shù)據(jù)-->requests模塊罪裹,并轉(zhuǎn)換成txt格式
- 解析數(shù)據(jù)-->BeautifulSoup模塊饱普,txt轉(zhuǎn)換成bs對(duì)象
- 提取相關(guān)數(shù)據(jù)-->需要分析url找到想要的數(shù)據(jù)內(nèi)容运挫,確定對(duì)應(yīng)的class_
- 舉例,小分類的全部鏈接可以在cate_words_list的table下面全部找到套耕,所以提取整體內(nèi)容items = soup.find_all('table', class_='cate_words_list')
image
2谁帕、write模塊
def download_dict(dl_url, path):
res = requests.get(dl_url, timeout=5)
with open(path, "wb") as fw:
fw.write(res.content)
總結(jié)
解析網(wǎng)頁和下載內(nèi)容部分進(jìn)行了詳細(xì)解釋,針對(duì)如何將scel文件轉(zhuǎn)換成txt文件冯袍,這里先不做講解了(我也沒弄明白呢)雇卷,下次有機(jī)會(huì)再給大家分析分析。
附贈(zèng)代碼下載鏈接
我用夸克網(wǎng)盤分享了「搜狗詞庫的批量下載#Python」颠猴,點(diǎn)擊鏈接即可保存。打開「夸克APP」小染,無需下載在線播放視頻翘瓮,暢享原畫5倍速,支持電視投屏裤翩。
鏈接:https://pan.quark.cn/s/2d42c4b3ee60
提取碼:dtp5