前言
最近需要爬取一些 google 搜索結(jié)果,首先看的就是有沒有相關(guān)的 API,官方有提供 API 查詢鸳兽,但爬取量有一定限制嘿期。
太長不看版
- 接口地址為
https://www.googleapis.com/customsearch/v1?key={YOUR_KEY}&q={SEARCH_WORDS}&cx={YOUR_CX}&start={10}&num={10}
- KEY 從 谷歌云 API 控制臺 來的品擎,需要有外幣卡先注冊谷歌云賬號。但似乎付費的話就不用這個 KEY 了备徐,僅用 CX 即可萄传,這個待查。
- CX 從 谷歌可編程搜索 中來
- 一天只有 100 次的免費搜索限額蜜猾,只能查詢前 100 條秀菱。如需增加則 5 刀 1000 次,但一天上限 10000蹭睡。 次答朋,對于我來說已經(jīng)足夠用了
怎么做
首先來到 Google Developers 的相關(guān)文檔頁面,可以看到大概的介紹棠笑。
生成 API KEY
點擊 overview 中的 Get a Key梦碗,此處需要登錄谷歌帳號,以及注冊谷歌云帳號(應(yīng)該需要綁定外幣信用卡)并且創(chuàng)建一個 project蓖救,此處略過不表洪规,最后你會得到一個 Key。
這個 Key 可以從谷歌云控制臺中看到循捺,建議加上應(yīng)用限制和 API 限制斩例,以防泄露后被濫用。
生成 cx
cx 是 Google 可編程搜索引擎(Programmable Search Engine)的 id 標識从橘,在此處 新增搜索引擎 可以獲取念赶。這里可以指定要搜索的網(wǎng)站础钠,比如說我只希望通過該 API 搜索出來的網(wǎng)站是 shodan.io,谷歌語法里面相當于 site:shodan.io
叉谜,可以這么設(shè)置:
新增完成之后點擊修改搜索引擎旗吁,并點擊設(shè)置,你就可以看到你的搜索引擎 id停局,就是我們說的 cx
里面還有一些選項很钓,自己可以看著修改~如果還想看看文檔,可點擊在頁面下方一點的【以程序化方式訪問】-【使用入門】
API
JSON API 可以從 文檔 中查看
完整的可請求參數(shù)如下董栽,基本上和高級搜索保持一致:
https://www.googleapis.com/customsearch/v1?q={searchTerms}&num={count?}&start={startIndex?}&lr={language?}&safe={safe?}&cx={cx?}&sort={sort?}&filter={filter?}&gl={gl?}&cr={cr?}&googlehost={googleHost?}&c2coff={disableCnTwTranslation?}&hq={hq?}&hl={hl?}&siteSearch={siteSearch?}&siteSearchFilter={siteSearchFilter?}&exactTerms={exactTerms?}&excludeTerms={excludeTerms?}&linkSite={linkSite?}&orTerms={orTerms?}&relatedSite={relatedSite?}&dateRestrict={dateRestrict?}&lowRange={lowRange?}&highRange={highRange?}&searchType={searchType}&fileType={fileType?}&rights={rights?}&imgSize={imgSize?}&imgType={imgType?}&imgColorType={imgColorType?}&imgDominantColor={imgDominantColor?}&alt=json"
簡化版:https://www.googleapis.com/customsearch/v1?key={YOUR_KEY}&q={SEARCH_WORDS}&cx={YOUR_CX}&start={10}&num={10}
存在的一些問題
搜索結(jié)果與 API 不一致
因為不同 IP 使用谷歌搜索會出現(xiàn)不一樣的結(jié)果码倦,比如美國和香港的 IP 訪問必然會不一樣《迹可以使用 API 中的 lr
參數(shù)修改語言選項袁稽,也可以在【修改搜索引擎】中修改語言和地區(qū)選項。
請求頻率
由于一天查的上限就這么多擒抛,所以等待時間盡量拉長吧推汽,我 5-10s 請求一次沒啥問題
參考資料
https://developers.google.com/custom-search/docs/tutorial/introduction
https://developers.google.com/custom-search/v1/reference/rest
歡迎搜索 LinusSEO 一起交流!共創(chuàng)AIGC時代下的新海外流量玩法闻葵!