.Net 4.5中的HttpClient試用
.Net 4.5中增加了一個新的System.Net.Http.HttpClient名字空間(在 System.Net.Http.dll 中),用于發(fā)送 HTTP 請求和接收 HTTP 響應(yīng)次泽。
基本操作
和以前的HttpWebRequest相比壳嚎,HttpClient更加簡潔,下面就是一個下載www.windows.com頁面的示例:
static async Task<string> GetData()
{
var httpClient = new HttpClient();
return await httpClient.GetStringAsync("http://www.weather.com.cn/data/sk/101010100.html");
}
static void Main(string[] args)
{
Console.WriteLine(GetData().Result);
Console.ReadLine();
}
它支持編碼識別和對壓縮的http流解壓凌外,省去了我們的不少代碼辩尊。除GetStringAsync()之外,還有GetByteArrayAsync()康辑、GetStreamAsync()摄欲、PostAsync ()、DeleteAsync()等函數(shù)疮薇,非常好用胸墙。
注意:HttpClient提供的函數(shù)基本都是異步的。
HttpClient.GetStringAsync()是一個簡化的函數(shù)惦辛,用這個函數(shù)的時候劳秋,我們看不到HttpResponse的相關(guān)信息,如果需要看到Http響應(yīng)的信息胖齐,可以用如下標準方式:
static async Task<string> GetData()
{
var httpClient = new HttpClient();
var httpResponMassage=await httpClient.GetAsync("http://www.weather.com.cn/data/sk/101010100.html");
//請求成功
if (httpResponMassage.IsSuccessStatusCode)
{
return await httpResponMassage.Content.ReadAsStringAsync();
}
return null;
}
自定義HttpHeader
前面的示例非常簡單玻淑,但有時我們需要在發(fā)送Get請求時在HttpHeader中加入一些額外的信息,常見的的有Refer呀伙、Cookie及UserAgent等补履。這個時候我們就要用到HttpClientHandler了,具體方法如下:
- 首先自定義一個HttpClienHanlder類剿另,重寫SendAsync方法箫锤。
using System;
using System.Net.Http;
using System.Threading;
using System.Threading.Tasks;
namespace ConsoleApplication1
{
public class MyHttpClientHandler:HttpClientHandler
{
protected override Task<HttpResponseMessage> SendAsync(HttpRequestMessage request, CancellationToken cancellationToken)
{
//告訴請求的api地址我是來自百度的跳轉(zhuǎn)過來的請求
request.Headers.Referrer=new Uri("http://www.baidu.com");
request.Headers.Add("UserAgent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727)");
return base.SendAsync(request, cancellationToken);
}
}
}
- 在控制臺中實例化HttpClient傳入該自定義對象
static async Task<string> GetData()
{
var client= new HttpClient(new MyHttpClientHandler());
return await client.GetStringAsync("http://www.weather.com.cn/data/sk/101010100.html");
}
可見,HttpClienHanlder其實就是是一個常見的代理模式的設(shè)計雨女,它在HttpClient.GetStringAsync()中加了一層封裝谚攒,攔截了HttpClient的輸入和輸出,從而實現(xiàn)一些自定義的操作氛堕。
常見問題
HttpClient雖然非常簡單易用馏臭,但并不意味著它任何時候都能照著我們期望的方式工作,常見問題(我這兩天試用過程中遇到的)如下:
- 中文亂碼讼稚。
一般發(fā)生這種情況是由于頁面的charset沒有設(shè)置為“utf-8”或“GBK”編碼格式括儒。
HttpClient.GetStringAsync()本身支持編碼識別,但如果HttpResponse的HttpHeader中不含CharSet信息時锐想,便采用默認編碼方式進行字符串解碼帮寻,它的默認編碼方式是無法解析中文的,此時便會出現(xiàn)中文亂碼赠摇。
一種常見的做法是:如果HttpHeader中不含CharSet信息時固逗,采用GBK方式來解碼浅蚪。要實現(xiàn)這個功能的話,還是需要用到前面提到的HttpClientHandler抒蚜。
class MyHttpClienHanlder:HttpClientHandler
{
protected async override Task<HttpResponseMessage> SendAsync(HttpRequestMessage request, CancellationToken cancellationToken)
{
var rsponse = await base.SendAsync(request, cancellationToken);
var contentType = rsponse.Content.Headers.ContentType;
if (string.IsNullOrEmpty(contentType.CharSet))
{
contentType.CharSet = "GBK";
}
return rsponse;
}
}
當(dāng)然掘鄙,這么做仍然不是很完善,有的時候如果要更精確的話還需要從Html頁面中獲取charset信息嗡髓,甚至通過相應(yīng)的庫函數(shù)進行編碼猜測操漠。這兒我寫了一個稍微完善的版本:
class HtmlTextHandler : HttpClientHandler
{
protected async override Task<HttpResponseMessage> SendAsync(HttpRequestMessage request, CancellationToken cancellationToken)
{
var response = await base.SendAsync(request, cancellationToken);
var contentType = response.Content.Headers.ContentType;
contentType.CharSet = await getCharSetAsync(response.Content);
return response;
}
private async Task<string> getCharSetAsync(HttpContent httpContent)
{
var charset = httpContent.Headers.ContentType.CharSet;
if (!string.IsNullOrEmpty(charset))
return charset;
var content = await httpContent.ReadAsStringAsync();
var match = Regex.Match(content, @"charset=(?<charset>.+?)""", RegexOptions.IgnoreCase);
if (!match.Success)
return charset;
return match.Groups["charset"].Value;
}
}
- 響應(yīng)內(nèi)容過長導(dǎo)致HttpRequestException。
HttpClient有一個屬性MaxResponseContentBufferSize饿这,它表示的是讀取響應(yīng)內(nèi)容時最大字節(jié)數(shù)緩沖區(qū)浊伙。它的默認值是64k,當(dāng)頁面內(nèi)容很多长捧,超過64k的時候嚣鄙,就會拋出一個HttpRequestException,導(dǎo)致Get失敗串结。這個屬性必須是個正整數(shù)哑子,也就是說,它是不支持自適應(yīng)的肌割,這個非常令人費解卧蜓,不知道MS為什么非要自己估算頁面大小,在Get操作前支持為合適的值把敞,這個是個不夠好用的地方弥奸。
我查了一下MSDN,目前對這個屬性的說明比較少奋早,不知道更改這個值的大小會影響什么地方盛霎。即使把他設(shè)置成int.Max貌似也不會有過多的內(nèi)存占用。不過為了安全起見耽装,還是把它設(shè)置在一個合理的范圍吧愤炸,像我一般就把它設(shè)置為1m。(PS: 在最新的.Net 4.5 RC中掉奄,這個值已經(jīng)更新成了int.MaxValue规个,希望RTM版不要恢復(fù)成64k,確實不夠用)
HttpClient client = new HttpClient() { MaxResponseContentBufferSize = 1024 * 1024 };
最后提一個不是問題的問題:HttpClient全部都是異步方法挥萌,沒有同步方法绰姻,如果要在同步函數(shù)中使用枉侧,必須通過Task.Wait()來等待任務(wù)完成引瀑,稍稍有些不便。