下載和安裝
</header>
使用maven下載
當(dāng)前最新版本1.1.0
-
gecco核心庫
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco</artifactId> <version>x.x.x</version> </dependency>
-
spring插件
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco-spring</artifactId> <version>x.x.x</version> </dependency>
-
htmlunit插件
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco-htmlunit</artifactId> <version>x.x.x</version> </dependency>
-
redis插件
<dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco-redis</artifactId> <version>x.x.x</version> </dependency>
不使用maven下載
如果你沒有使用maven構(gòu)建項(xiàng)目暂殖,這里提供了gecco核心庫和依賴的所有l(wèi)ib包的下載
如果需要使用spring舒萎、htmlunit、redis等相關(guān)插件识补,這里提供了核心庫和所有插件以及相關(guān)依賴的lib包的all-in-one下載
日志輸出
應(yīng)用的classpath的根目錄下放置log4j.properties
log4j.rootLogger=error,stdout
#stdout console appender
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[%d{yyyy.MM.dd HH:mm:ss}] %p %C:%M(%L) - %m%n
-
查看gecco相關(guān)的應(yīng)用debug信息可以設(shè)置
log4j.logger.com.geccocrawler.gecco=debug
-
如果使用的是httpclient作為下載引擎酪穿,可以通過設(shè)置查看詳細(xì)的http請求信息
log4j.logger.org.apache.http=debug
代理文件
如果需要使用代理ip凳干,可將proxys文件放置在classpath的根目錄下,格式為ip:port例如:
127.0.0.1:8008
127.0.0.1:80
gecco支持運(yùn)行時計(jì)算每個代理的下載成功率被济,對于成功率低于50%的代理自動剔除救赐。另外,運(yùn)行時也可以通過Proxys.addProxy()動態(tài)添加代理服務(wù)器只磷。
userAgent
系統(tǒng)默認(rèn)已經(jīng)放置了userAgent文件经磅,如果需要自定義userAgent,可以在classpath的根目錄下放置userAgents和mobileUserAgents钮追。userAgents是pc端使用的预厌,mobileUserAgents是手機(jī)端使用的。格式如下:
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;