一玫膀、什么是Http Client
Http協(xié)議矛缨,是全互聯(lián)網(wǎng)共同的語(yǔ)言,而Http Client帖旨,可以說(shuō)是我們需要從互聯(lián)網(wǎng)世界獲取數(shù)據(jù)的最基本方法箕昭,它本質(zhì)上是一個(gè)URL到一個(gè)網(wǎng)頁(yè)的轉(zhuǎn)換過(guò)程。而有了基本的Http客戶端功能解阅,再搭配上我們想要的規(guī)則和策略盟广,上至內(nèi)容檢索下至數(shù)據(jù)分析都可以實(shí)現(xiàn)了。
繼上一次介紹用Workflow可以10行C++代碼實(shí)現(xiàn)一個(gè)高性能Http服務(wù)器瓮钥,今天繼續(xù)給大家用C++實(shí)現(xiàn)一個(gè)高性能的Http客戶端也同樣很簡(jiǎn)單!
// [http_client.cc]
#include "stdio.h"
#include "workflow/HttpMessage.h"
#include "workflow/WFTaskFactory.h"
int main (int argc, char *argv[])
{
const char *url = "https://github.com/sogou/workflow";
WFHttpTask *task = WFTaskFactory::create_http_task (url, 2, 3,
[](WFHttpTask * task) {
fprintf(stderr, "%s %s %s\r\n",
task->get_resp()->get_http_version(),
task->get_resp()->get_status_code(),
task->get_resp()->get_reason_phrase());
});
task->start();
getchar(); // press "Enter" to end.
return 0;
}
只要安裝好了Workflow烹吵,以上代碼即可以通過(guò)以下命令編譯出一個(gè)簡(jiǎn)單的http_client:
g++ -o http_client http_client.cc --std=c++11 -lworkflow -lssl -lcrypto -lpthread
根據(jù)Http協(xié)議碉熄,我們執(zhí)行這個(gè)可執(zhí)行程序 ./http_client
,就會(huì)得到以下內(nèi)容:
HTTP/1.1 200 OK
同理肋拔,我們還可以通過(guò)其他api來(lái)獲得返回的其他Http header和Http body锈津,一切內(nèi)容都在這個(gè) WFHttpTask
中。而因?yàn)?strong>Workflow是個(gè)異步調(diào)度框架凉蜂,因此這個(gè)任務(wù)發(fā)出之后琼梆,不會(huì)阻塞當(dāng)前線程性誉,外加內(nèi)部自帶的連接復(fù)用,從根本上保證了我們的Http Client的高性能茎杂。
接下來(lái)給大家詳細(xì)講解一下原理~
二错览、請(qǐng)求的過(guò)程
1. 創(chuàng)建Http任務(wù)
上述demo可以看到,請(qǐng)求是通過(guò)發(fā)起一個(gè)Workflow的Http異步任務(wù)來(lái)實(shí)現(xiàn)的煌往,創(chuàng)建任務(wù)的接口如下:
WFHttpTask *create_http_task(const std::string& url,
int redirect_max, int retry_max,
http_callback_t callback);
第一個(gè)參數(shù)就是我們要請(qǐng)求的URL倾哺。對(duì)應(yīng)的,在一開(kāi)始的示例中刽脖,我們的重定向次數(shù)redirect_max是2次羞海,而重試次數(shù)retry_max是3次。第四個(gè)參數(shù)是一個(gè)回調(diào)函數(shù)曲管,示例中我們用了一個(gè)lambda却邓,由于Workflow的任務(wù)都是異步的,因此我們處理結(jié)果這件事情是被動(dòng)通知我們的院水,結(jié)果回來(lái)就會(huì)調(diào)起這個(gè)回調(diào)函數(shù)腊徙,格式如下:
using http_callback_t = std::function<void (WFHttpTask *)>;
2. 填寫header并發(fā)出
我們的網(wǎng)絡(luò)交互無(wú)非是請(qǐng)求-回復(fù),對(duì)應(yīng)到Http Client上衙耕,在我們創(chuàng)建好了task之后昧穿,我們有一些時(shí)機(jī)是處理請(qǐng)求的,在Http協(xié)議里橙喘,就是在header里填好協(xié)議相關(guān)的事情时鸵,比如我們可以通過(guò)Connection來(lái)指定希望得到建立Http的長(zhǎng)連接,以節(jié)省下次建立連接的耗時(shí)厅瞎,那么我們可以把Connection設(shè)置為Keep-Alive饰潜。示例如下:
protocol::HttpRequest *req = task->get_req();
req->add_header_pair("Connection", "Keep-Alive");
task->start();
最后我們會(huì)把設(shè)置好請(qǐng)求的任務(wù),通過(guò) task->start();
發(fā)出和簸。最開(kāi)始的 http_client.cc
示例中彭雾,有一個(gè) getchar();
語(yǔ)句,是因?yàn)槲覀兊漠惒饺蝿?wù)發(fā)出后是非阻塞的锁保,當(dāng)前線程不暫時(shí)停住就會(huì)退出薯酝,而我們希望等到回調(diào)函數(shù)回來(lái),因此我們可以用多種暫停的方式爽柒。
3. 處理返回結(jié)果
一個(gè)返回結(jié)果吴菠,根據(jù)Http協(xié)議,會(huì)包含三部分:消息行浩村、消息頭header做葵、消息正文body。如果我們想要獲取body心墅,可以這樣:
const void *body;
size_t body_len;
task->get_resp()->get_parsed_body(&body, &body_len);
三酿矢、高性能的基本保證
我們使用C++來(lái)寫Http Client榨乎,最香的就是可以利用其高性能。Workflow對(duì)高并發(fā)是如何保證的呢瘫筐?其實(shí)就兩點(diǎn):
- 純異步蜜暑;
- 連接復(fù)用;
前者是對(duì)線程資源的重復(fù)利用严肪、后者是對(duì)連接資源的重復(fù)利用史煎,這些框架層級(jí)都為用戶管理好了,充分減少開(kāi)發(fā)者的心智負(fù)擔(dān)驳糯。
1. 異步調(diào)度模式
同步和異步的模式直接決定了我們的Http Client可以有多大的并發(fā)度篇梭。為什么呢?通過(guò)下圖可以先看看同步框架發(fā)起三個(gè)Http任務(wù)酝枢,線程模型是怎樣的:
網(wǎng)絡(luò)延遲往往非常大恬偷,如果我們?cè)谕降却蝿?wù)回來(lái)的話,線程就會(huì)一直被占用帘睦。這時(shí)候我們需要看看異步框架是如何實(shí)現(xiàn)的:
如圖所示袍患,只要任務(wù)發(fā)出之后,線程即可做其他事情竣付,我們傳入了一個(gè)回調(diào)函數(shù)做異步通知诡延,因此等任務(wù)的網(wǎng)絡(luò)回復(fù)收完之后,再讓線程執(zhí)行這個(gè)回調(diào)函數(shù)即可拿到Http請(qǐng)求的結(jié)果古胆,期間多個(gè)任務(wù)并發(fā)出去的時(shí)候肆良,線程是可以復(fù)用的,輕松達(dá)到幾十萬(wàn)的QPS并發(fā)度逸绎。
2. 連接復(fù)用
我們剛才有提到惹恃,只要我們建立了長(zhǎng)連接,即可提高效率棺牧。為什么呢巫糙?因?yàn)榭蚣軐?duì)連接有復(fù)用。我們先來(lái)看看如果一個(gè)請(qǐng)求就建立一個(gè)連接颊乘,會(huì)是什么樣的情況:
很顯然参淹,占用大量的連接是對(duì)系統(tǒng)資源的浪費(fèi),而且每次都要做connect以及close是非常耗時(shí)的乏悄,除了TCP常見(jiàn)的握手以外承二,許多應(yīng)用層協(xié)議建立連接的過(guò)程也會(huì)相對(duì)復(fù)雜。但使用Workflow就不會(huì)有這樣的煩惱纲爸,Workflow會(huì)在任務(wù)發(fā)出的時(shí)候自動(dòng)查找當(dāng)前可以復(fù)用的連接,如果沒(méi)有才會(huì)自動(dòng)創(chuàng)建妆够,完全不需要開(kāi)發(fā)者關(guān)心連接如何復(fù)用的細(xì)節(jié):
3. 解鎖其他功能
當(dāng)然,除了以上的高性能以外,一個(gè)高性能的Http Client往往還有許多其他的需求症杏,這里可以結(jié)合實(shí)際情況與大家分享:
- 結(jié)合workflow的串并聯(lián)任務(wù)流层亿,實(shí)現(xiàn)超大規(guī)模并行抓取;
- 按順序或者按指定速度請(qǐng)求某個(gè)站點(diǎn)的內(nèi)容钠龙,避免請(qǐng)求過(guò)猛被封禁;
- Http Client遇到redirect可以自動(dòng)幫我做跳轉(zhuǎn),一步到位請(qǐng)求到最終結(jié)果伤极;
- 希望通過(guò)proxy代理訪問(wèn)
HTTP
與HTTPS
資源;
以上這些需求姨伤,要求框架對(duì)于Http任務(wù)的編排有超高的靈活性哨坪,以及對(duì)實(shí)際需求(比如redirect、ssl代理等功能)有非常接地氣的支持乍楚,這些Workflow都已經(jīng)實(shí)現(xiàn)当编。
項(xiàng)目地址
https://github.com/sogou/workflow
歡迎使用 workflow 并 star 支持一下!