http的響應(yīng)數(shù)據(jù)由下面2部分構(gòu)成:
響應(yīng)頭 + 數(shù)據(jù)部分
數(shù)據(jù)部分的格式由響應(yīng)頭說明
一般情況下,HTTP的響應(yīng)頭包含Content-Length域來指明數(shù)據(jù)的長度愉适,例如:
有時(shí)候弟晚,服務(wù)器生成HTTP響應(yīng)時(shí),不好確定響應(yīng)數(shù)據(jù)的大小,可能是大文件的下載或后臺需要復(fù)雜的邏輯處理生成頁面剩瓶,這樣一般就使用chunked編碼進(jìn)行傳輸番刊。使用chunked編碼進(jìn)行傳輸不用事先說明要傳輸?shù)捻撁鎯?nèi)容的大小含鳞,通過一定的規(guī)則指明傳輸結(jié)束。
通常使用chunked編碼進(jìn)行傳輸?shù)臅r(shí)候芹务,會先將數(shù)據(jù)進(jìn)行壓縮蝉绷。HTTP響應(yīng)頭中的Content-Encoding域指明了壓縮格式鸭廷。
![](https://ww4.sinaimg.cn/large/006tKfTcgy1fce9b5ysdfj30hj05o0tv.jpg)
當(dāng)數(shù)據(jù)很大的時(shí)候,還會分多個(gè)塊(chunk)傳輸熔吗。chunked編碼的格式如下:
![](https://ww1.sinaimg.cn/large/006tNc79gy1fce9co0paej30jb07x74w.jpg)
注意chunk數(shù)據(jù)長度的單位是字節(jié)辆床,不包括后面的\r\n。以一個(gè)長度為0的塊作為結(jié)尾桅狠。
把所有的chunk數(shù)據(jù)部分組合起來存入文件讼载,就是一個(gè)標(biāo)準(zhǔn)的gzip壓縮文件。
怎么樣把所有chunk數(shù)據(jù)部分提取出來呢中跌?明白了上面的格式咨堤,其實(shí)就很簡單了。
如果我們是通過TCP接收的數(shù)據(jù)漩符,首先要解決一個(gè)問題:找到chunk數(shù)據(jù)開始的地方吱型,上面提到chunk前面是HTTP響應(yīng)頭。其它先不管陨仅,響應(yīng)頭是以連續(xù)的\r\n\r\n結(jié)尾的津滞,這之后就是響應(yīng)的數(shù)據(jù)部分。
假設(shè)我們有一個(gè)buffer
char *m_contentData;
里面存儲著按序收到的所有響應(yīng)數(shù)據(jù)灼伤。
可以通過如下方式移動到數(shù)據(jù)部分触徐,即chunked數(shù)據(jù)開始的地方(下圖所示:從A移動到B)
int n=0;
while(*m_contentData)
{
if (*m_contentData=='\r' || *m_contentData=='\n')
n++;
else
n=0;
if (n==4)
break;
m_contentData++;
}
![](https://ww4.sinaimg.cn/large/006tNc79gy1fce9ddbkfvj30m708sgmb.jpg)
定義char *m_gzipContentData保存gzip數(shù)據(jù),可以通過如下方式獲取到gzip數(shù)據(jù)狐赡,然后寫入文件撞鹉。
int len=0;
char ss[10];
char *p = m_contentData;
char *q = m_gzipData;
int gzip_len = 0;
while(1)
{
sscanf(p, "%s", ss);
//read chunk-size
len = HexToDecimal(ss); //convert hex to decimal
if (len == 0) //to chunk end
break;
p+=2; //read \r\n
memcpy(q, p, len);
q += len;
p += len;
gzip_len += len;
p += 2; //read \r\n
}
fwrite(m_gzipData, 1, gzip_len, fp);