前言
最近開始好好在看go語言废酷,拖延很久終于把小伙伴給的《Go語言實戰(zhàn)》書看完了抹缕,但是還沒實際上手操作過,想著當年學python的時候也是從爬蟲實戰(zhàn)開始的趴俘,那就先寫個go的并發(fā)爬蟲來作為實戰(zhàn)吧寥闪。
使用的爬蟲庫
我這里使用了resty
http請求庫疲憋,而非go語言內(nèi)置的請求庫缚柳,因為resty庫封裝更多,對參數(shù)設(shè)置和文件下載十分方便
- go-resty地址及文檔:https://github.com/go-resty/resty
使用的html解析
我習慣使用的xpath方式進行html解析喂击,因此選擇使用htmlquery
庫翰绊,如果你喜歡css解析方式也可以使用goquery
- htmlquery地址及文檔: https://github.com/antchfx/htmlquery
使用的并發(fā)控制
我這里使用的sync.WaitGroup
進行的并發(fā)控制,也可以改造為channel
的方式貌似更好谐檀?
爬取目標及思路
必應的每日一圖很適合作為練手項目桐猬,涉及有分頁溃肪、有html內(nèi)容提取惫撰、有圖片下載到本地厨钻,正好練手坚嗜。本次爬蟲目標是并發(fā)的方式抽取每頁大圖url地址苍蔬,并且下載大圖到本地银室。
- 主頁地址: https://bing.ioliu.cn/
- 爬取思路解析
本地爬取需要提取大圖url地址和保存的文件名,通過后續(xù)分析辜荠,大圖地址只需要將后綴改為?force=download
即是直接下載的地址伯病,因此后續(xù)需要處理一下抽取到的url午笛。每個page頁面的查詢參數(shù)是?p=1
結(jié)構(gòu)药磺。
因此爬取思路很簡單:請求每個page頁面 -> 抽取該頁面下所有大圖下載url -> 請求每個下載url并將圖片保存到本地癌佩。
代碼部分
記錄下代碼的設(shè)計思路,由于是初學我碟,有不足地方還屬正常~
使用了waitGroup
的方式控制并發(fā)同步,代碼內(nèi)對每一頁的抽取及每個大圖的下載都使用了goruntine
并發(fā)的方式掸冤,但并沒有對并發(fā)數(shù)量進行控制厘托,容易被封ip~ 后續(xù)需要改進。
這里可以改造為使用channel
通道進行并發(fā)控制貌似更好一些稿湿。
package main
import (
"github.com/antchfx/htmlquery"
"github.com/go-resty/resty/v2"
"golang.org/x/net/html"
"log"
"strconv"
"strings"
"sync"
"time"
)
// bing圖片主頁
const restyBaseUrl = "https://bing.ioliu.cn/"
// 下載目錄
const restyDownloadPath = "/Users/my/go/src/goProjects/downloads"
func main() {
// 使用waitGroup控制并發(fā)同步催烘,需要在適宜的位置使用Add和Done方法
var wg sync.WaitGroup
// 爬取三頁測試,多了要出事
for page := 1; page <= 3; page++ {
wg.Add(1)
go getPageImage(page, &wg)
}
wg.Wait()
log.Println("下載完成")
}
// 大圖結(jié)構(gòu)化信息:下載地址及保存文件名
type imageStruct struct{
url string
name string
}
// 大圖結(jié)構(gòu)綁定方法缎罢,下載到本地,使用resty包可以很簡單的定義重試策略考杉、文件下載目錄及文件名策精,無需手動操作os,很棒
func (image imageStruct) download(waitGroup *sync.WaitGroup) {
defer waitGroup.Done()
filename := image.name + ".jpg"
client := resty.New()
// set retry
client.
SetRetryCount(3).
// Default is 100 milliseconds.
SetRetryWaitTime(5 * time.Second).
// Default is 2 seconds.
SetRetryMaxWaitTime(20 * time.Second)
// request and save file to path
client.SetOutputDirectory(restyDownloadPath)
_, err := client.R().
SetHeader("Referer", "https://bing.ioliu.cn/").
SetHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36").
SetOutput(filename).
Get(image.url)
if err != nil {
log.Printf("下載圖片失敵缣摹:%s,err:%s", image.name, err)
return
}
log.Printf("下載圖片成功:%s", image.name)
}
func getPageImage(page int, waitGroup *sync.WaitGroup) {
// 請求分頁頁面并解析出大圖詳情結(jié)構(gòu)
defer waitGroup.Done()
// 使用resty包進行http請求咽袜,更方便的構(gòu)造請求頭參數(shù)和查詢參數(shù)
client := resty.New()
resp, err := client.R().
SetQueryParams(map[string]string{
"p": strconv.Itoa(page),
}).
SetHeader("Referer", "https://bing.ioliu.cn/").
SetHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36").
Get(restyBaseUrl)
if err != nil {
log.Fatal(err)
return
}
// 使用htmlquery包進行html元素解析,使用xpath的方式抽取大圖item信息
doc, qErr := htmlquery.Parse(strings.NewReader(resp.String()))
if qErr != nil {
log.Fatal(qErr)
}
// xpath 匹配響應中所有圖片元素,并逐個提取并發(fā)下載
imageItems := htmlquery.Find(doc, "http://div[@class='item']/div[@class='card progressive']")
for _, item := range imageItems {
filename, bigImageUrl := extractImageInfo(item)
// 保存大圖結(jié)構(gòu)化信息
img := imageStruct{
url: bigImageUrl,
name: filename,
}
log.Printf("開始下載:%s", img.name)
// 并發(fā)下載圖片,控制時間間隔
waitGroup.Add(1)
// 并發(fā)調(diào)用大圖結(jié)構(gòu)化方法,下載大圖到本地并命名
go img.download(waitGroup)
}
}
// 從大圖item元素中抽取下載地址及圖片名
func extractImageInfo(item *html.Node) (string, string){
//抽取圖片信息
extractImageUrlElem := htmlquery.FindOne(item, "./a")
nameElem := htmlquery.FindOne(item, "./div[@class='description']/h3")
name := htmlquery.InnerText(nameElem)
extractImageUrl := htmlquery.SelectAttr(extractImageUrlElem, "href")
filename := strings.Split(name, "(")[0]
extractImageUrlRes := strings.Split(extractImageUrl, "?")[0]
bigImageUrl := "https://bing.ioliu.cn/" + extractImageUrlRes + "?force=download"
return filename, bigImageUrl
}
效果展示
我的該go文件名為crawl_bing.go
因此在當前目錄下執(zhí)行go run crawl_bing.go
即可執(zhí)行,執(zhí)行效果如下:
我感覺代碼里面有一些問題兄一,因為實際文件目錄很快就已經(jīng)下載完成到本地了造壮,但是日志卻在緩慢打印,看起來就像下載耗時一樣,后面再看看什么問題。昆汹。。
感受
真的學習新語言和框架要自己去實現(xiàn)去敲才行,只看是沒有用的捅彻,加油贤旷。