1.項目需求:將當當網(wǎng)程序設計類()書籍的商品名效扫、商品鏈接以及評價數(shù)爬取后保存到mysql數(shù)據(jù)庫中。
2.項目實施步驟
(1)創(chuàng)建爬蟲項目和文件昏兆。
scrapy startproject dangdang
scrapy genspider -t basic dd dangdang.com
(2)編寫items.py文件有梆。
(3)編寫dd.py文件。
(4)數(shù)據(jù)處理準備:若本機已準備好mysql數(shù)據(jù)庫瞒御,直接對數(shù)據(jù)庫進行操作;若沒有神郊,則進行安裝肴裙。
cmd安裝pymysql的命令:
pip install pymysql
cmd進入mysql的命令:
建立dangdang數(shù)據(jù)庫:
create database dangdang;
切換數(shù)據(jù)庫:
use dangdang;
庫中建立存儲爬取結果的book表:
create?table book(title char(100) primary key,link char(100) unique,comment char(20));
【注】①在mysql/bin文件中直接運行mysql.exe文件可能出現(xiàn)閃退的情況趾唱,處理的一種方法就是在shell中先進入mysql/bin,再利用命令mysql.exe -u root -p進入mysql的shell蜻懦。
②mysql shell常使用的sql命令有:
show databases甜癞;
create database 數(shù)據(jù)庫名;
use 數(shù)據(jù)庫名宛乃;
create table 表名(字段名1 字段類型 屬性,字段名1 字段類型 屬性,...)悠咱;
select * from 表名;
insert into 表名(字段1征炼,字段2析既,...)values(“值1”,“值2”谆奥,...)眼坏;
③在mysql的shell中輸入命令,一定要以雄右;為結束標識符空骚。
(5)編寫pipelines.py文件(寫入數(shù)據(jù)庫)。
(6)編寫settings.py文件(開啟爬蟲)擂仍。
(7)運行爬蟲囤屹。
scrapy crawl dd --nolog
(8)查看結果。