最近工作之余學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲,整理點(diǎn)筆記。window環(huán)境下做開發(fā)會有一些坑迎膜,順便記錄下。
1浆兰、安裝scrap庫磕仅,管理員打開命令提示符輸入pip install scrapy,在這個(gè)過程中簸呈,可能會有報(bào)錯(cuò)榕订,提示缺少M(fèi)S Visual C++ Build Tools,按照提示給出的網(wǎng)址下載安裝蜕便,重新pip install scrapy即可劫恒。也可以在直接Anaconda Prompt輸入conda install scrapy安裝而不需安裝MS Visual C++ Build Tools,由于本人對Anaconda不熟悉玩裙,怕留下坑兼贸,所以采用第一種方法安裝。
2吃溅、創(chuàng)建Scrapy項(xiàng)目溶诞,如命令提示符進(jìn)入D:/pycodes/,輸入命令scrapy startproject pydemo决侈。
3螺垢、spiders/目錄,用戶自定義的spider代碼增加在此目錄下赖歌,此外枉圃,該目錄下有以下文件無需修改:
__pycache__/ ——緩存目錄,無需修改
__init__.py ——初始文件庐冯,無需修改
4孽亲、在工程下生成一個(gè)Scrapy爬蟲
1)在spider/下增加代碼文件demo.py
2)命令提示符在D:/pycodes/pydemo/下輸入命令scrapy genspider demo python123.io
5、編寫爬蟲代碼展父,運(yùn)行爬蟲返劲,獲取網(wǎng)頁,命令提示符在D:/pycodes/pydemo/下輸入命令scrapy crawl demo栖茉。在這個(gè)過程中篮绿,可能會有報(bào)錯(cuò)提示:No module named 'win32api',安裝pywin32庫后吕漂,重新執(zhí)行命令可能會有報(bào)錯(cuò):ImportError: DLL load failed: 找不到指定的模塊亲配。將pywin32包的安裝目錄D:\Program Files\Python36\Lib\site-packages\pywin32_system32\目錄下的兩個(gè)dll文件復(fù)制到C:\Windows\System32即可
基于scrapy完善的第三方庫https://pypi.python.org/ 查找scrapy-開頭的第三方庫。