以無參方式輸入scrapy
命令會輸出可用的命令:
xieyuedembp:Web100 xieyue$ scrapy
Scrapy 1.8.0 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
全局命令:
startproject
:
【創(chuàng)建新項目】
$ scrapy startproject myproject
settings
:
【獲取Scrapy的設置】
$ scrapy settings
$ scrapy settings --get DOWNLOAD_DELAY
runspider
:
【在未創(chuàng)建項目的情況下粥血,運行一個編寫在Python文件中的spider】
$ scrapy runspider myspider.py
shell
:
【以給定的URL(如果給出)或者空(沒有給出URL)啟動Scrapy shell】
$ scrapy shell http://www.baidu.com
fetch
:
【使用Scrapy下載器(downloader)下載給定的URL栋盹,并將獲取到的內(nèi)容送到標準輸出】
$ scrapy fetch --nolog http://www.baidu.com
$ scrapy fetch --nolog --headers http://www.baidu.com
view
:
【在瀏覽器中打開給定的URL,并以Scrapy spider獲取到的形式展現(xiàn)】
$ scrapy view http://www.baidu.com
version
:
【輸出Scrapy版本】
$ scrapy shell http://www.baidu.com
項目(Project-only)命令:
crawl
:
【使用spider進行爬取】
$ scrapy crawl myspider
check
:
【運行contract檢查】
$ scrapy check -l
$ scrapy check
list
:
【列出當前項目中可用的spider】
$ scrapy list
edit
:
【使用editor
中設定的編輯器編輯給定的spider】
$ scrapy edit spider1
parse
:
【獲取給定的URL并使用相應的spider分析處理】
$ scrapy parse http://www.example.com/ -c parse_item
genspider
:
【在當前項目中創(chuàng)建spider】
$ scrapy genspider videos_spider douban.videos.com
bench
:
【運行benchmark測試】
$ scrapy bench