構(gòu)建 C1000K 的服務(wù)器 (1) – 基礎(chǔ)

轉(zhuǎn)自: http://www.ideawu.net/blog/archives/740.html

著名的 C10K 問題提出的時(shí)候, 正是 2001 年, 到如今 12 年后的 2013 年, C10K 已經(jīng)不是問題了, 任何一個(gè)普通的程序員, 都能利用手邊的語言和庫(kù), 輕松地寫出 C10K 的服務(wù)器. 這既得益于軟件的進(jìn)步, 也得益于硬件性能的提高.
現(xiàn)在, 該是考慮 C1000K, 也就是百萬連接的問題的時(shí)候了. 像 Twitter, weibo, Facebook 這些網(wǎng)站, 它們的同時(shí)在線用戶有上千萬, 同時(shí)又希望消息能接近實(shí)時(shí)地推送給用戶, 這就需要服務(wù)器能維持和上千萬用戶的 TCP 網(wǎng)絡(luò)連接, 雖然可以使用成百上千臺(tái)服務(wù)器來支撐這么多用戶, 但如果每臺(tái)服務(wù)器能支持一百萬連接(C1000K), 那么只需要十臺(tái)服務(wù)器.
有很多技術(shù)聲稱能解決 C1000K 問題, 例如 Erlang, Java NIO 等等, 不過, 我們應(yīng)該首先弄明白, 什么因素限制了 C1000K 問題的解決. 主要是這幾點(diǎn):
操作系統(tǒng)能否支持百萬連接?
操作系統(tǒng)維持百萬連接需要多少內(nèi)存?
應(yīng)用程序維持百萬連接需要多少內(nèi)存?
百萬連接的吞吐量是否超過了網(wǎng)絡(luò)限制?

下面來分別對(duì)這幾個(gè)問題進(jìn)行分析.
1. 操作系統(tǒng)能否支持百萬連接?
對(duì)于絕大部分 Linux 操作系統(tǒng), 默認(rèn)情況下確實(shí)不支持 C1000K! 因?yàn)椴僮飨到y(tǒng)包含最大打開文件數(shù)(Max Open Files)限制, 分為系統(tǒng)全局的, 和進(jìn)程級(jí)的限制.
全局限制
在 Linux 下執(zhí)行:
cat /proc/sys/fs/file-nr
會(huì)打印出類似下面的一行輸出:
5100 0 101747
第三個(gè)數(shù)字 101747
就是當(dāng)前系統(tǒng)的全局最大打開文件數(shù)(Max Open Files), 可以看到, 只有 10 萬, 所以, 在這臺(tái)服務(wù)器上無法支持 C1000K. 很多系統(tǒng)的這個(gè)數(shù)值更小, 為了修改這個(gè)數(shù)值, 用 root 權(quán)限修改 /etc/sysctl.conf 文件:
fs.file-max = 1020000net.ipv4.ip_conntrack_max = 1020000net.ipv4.netfilter.ip_conntrack_max = 1020000
需要重啟系統(tǒng)服務(wù)生效:

Linux$ sudo sysctl -p /etc/sysctl.conf # BSD$ sudo /etc/rc.d/sysctl reload

進(jìn)程限制
執(zhí)行:
ulimit -n
輸出:
1024
說明當(dāng)前 Linux 系統(tǒng)的每一個(gè)進(jìn)程只能最多打開 1024 個(gè)文件. 為了支持 C1000K, 你同樣需要修改這個(gè)限制.
臨時(shí)修改
ulimit -n 1020000
不過, 如果你不是 root, 可能不能修改超過 1024, 會(huì)報(bào)錯(cuò):
-bash: ulimit: open files: cannot modify limit: Operation not permitted
永久修改
編輯 /etc/security/limits.conf 文件, 加入如下行:

/etc/security/limits.confwork hard nofile 1020000work soft nofile 1020000

第一列的 work
表示 work 用戶, 你可以填 *
, 或者 root
. 然后保存退出, 重新登錄服務(wù)器.
注意: Linux 內(nèi)核源碼中有一個(gè)常量(NR_OPEN in /usr/include/linux/fs.h), 限制了最大打開文件數(shù), 如 RHEL 5 是 1048576(2^20), 所以, 要想支持 C1000K, 你可能還需要重新編譯內(nèi)核.
2. 操作系統(tǒng)維持百萬連接需要多少內(nèi)存?
解決了操作系統(tǒng)的參數(shù)限制, 接下來就要看看內(nèi)存的占用情況. 首先, 是操作系統(tǒng)本身維護(hù)這些連接的內(nèi)存占用. 對(duì)于 Linux 操作系統(tǒng), socket(fd) 是一個(gè)整數(shù), 所以, 猜想操作系統(tǒng)管理一百萬個(gè)連接所占用的內(nèi)存應(yīng)該是 4M/8M, 再包括一些管理信息, 應(yīng)該會(huì)是 100M 左右. 不過, 還有 socket 發(fā)送和接收緩沖區(qū)所占用的內(nèi)存沒有分析. 為此, 我寫了最原始的 C 網(wǎng)絡(luò)程序來驗(yàn)證:
服務(wù)器

include <stdio.h>#include <stdlib.h>#include <string.h>#include <unistd.h>#include <errno.h>#include <arpa/inet.h>#include <netinet/tcp.h>#include <sys/select.h>#define MAX_PORTS 10int main(int argc, char **argv){ struct sockaddr_in addr; const char *ip = "0.0.0.0"; int opt = 1; int bufsize; socklen_t optlen; int connections = 0; int base_port = 7000; if(argc > 2){ base_port = atoi(argv[1]); } int server_socks[MAX_PORTS]; for(int i=0; i<MAX_PORTS; i++){ int port = base_port + i; bzero(&addr, sizeof(addr)); addr.sin_family = AF_INET; addr.sin_port = htons((short)port); inet_pton(AF_INET, ip, &addr.sin_addr); int serv_sock; if((serv_sock = socket(AF_INET, SOCK_STREAM, 0)) == -1){ goto sock_err; } if(setsockopt(serv_sock, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)) == -1){ goto sock_err; } if(bind(serv_sock, (struct sockaddr *)&addr, sizeof(addr)) == -1){ goto sock_err; } if(listen(serv_sock, 1024) == -1){ goto sock_err; } server_socks[i] = serv_sock; printf("server listen on port: %d\n", port); } //optlen = sizeof(bufsize); //getsockopt(serv_sock, SOL_SOCKET, SO_RCVBUF, &bufsize, &optlen); //printf("default send/recv buf size: %d\n", bufsize); while(1){ fd_set readset; FD_ZERO(&readset); int maxfd = 0; for(int i=0; i<MAX_PORTS; i++){ FD_SET(server_socks[i], &readset); if(server_socks[i] > maxfd){ maxfd = server_socks[i]; } } int ret = select(maxfd + 1, &readset, NULL, NULL, NULL); if(ret < 0){ if(errno == EINTR){ continue; }else{ printf("select error! %s\n", strerror(errno)); exit(0); } } if(ret > 0){ for(int i=0; i<MAX_PORTS; i++){ if(!FD_ISSET(server_socks[i], &readset)){ continue; } socklen_t addrlen = sizeof(addr); int sock = accept(server_socks[i], (struct sockaddr *)&addr, &addrlen); if(sock == -1){ goto sock_err; } connections ++; printf("connections: %d, fd: %d\n", connections, sock); } } } return 0;sock_err: printf("error: %s\n", strerror(errno)); return 0;}

注意, 服務(wù)器監(jiān)聽了 10 個(gè)端口, 這是為了測(cè)試方便. 因?yàn)橹挥幸慌_(tái)客戶端測(cè)試機(jī), 最多只能跟同一個(gè) IP 端口創(chuàng)建 30000 多個(gè)連接, 所以服務(wù)器監(jiān)聽了 10 個(gè)端口, 這樣一臺(tái)測(cè)試機(jī)就可以和服務(wù)器之間創(chuàng)建 30 萬個(gè)連接了.
客戶端

include <stdio.h>#include <stdlib.h>#include <string.h>#include <unistd.h>#include <errno.h>#include <arpa/inet.h>#include <netinet/tcp.h>int main(int argc, char **argv){ if(argc <= 2){ printf("Usage: %s ip port\n", argv[0]); exit(0); } struct sockaddr_in addr; const char *ip = argv[1]; int base_port = atoi(argv[2]); int opt = 1; int bufsize; socklen_t optlen; int connections = 0; bzero(&addr, sizeof(addr)); addr.sin_family = AF_INET; inet_pton(AF_INET, ip, &addr.sin_addr); char tmp_data[10]; int index = 0; while(1){ if(++index >= 10){ index = 0; } int port = base_port + index; printf("connect to %s:%d\n", ip, port); addr.sin_port = htons((short)port); int sock; if((sock = socket(AF_INET, SOCK_STREAM, 0)) == -1){ goto sock_err; } if(connect(sock, (struct sockaddr )&addr, sizeof(addr)) == -1){ goto sock_err; } connections ++; printf("connections: %d, fd: %d\n", connections, sock); if(connections % 10000 == 9999){ printf("press Enter to continue: "); getchar(); } usleep(1 * 1000); / bufsize = 5000; setsockopt(serv_sock, SOL_SOCKET, SO_SNDBUF, &bufsize, sizeof(bufsize)); setsockopt(serv_sock, SOL_SOCKET, SO_RCVBUF, &bufsize, sizeof(bufsize)); */ } return 0;sock_err: printf("error: %s\n", strerror(errno)); return 0;}

我測(cè)試 10 萬個(gè)連接, 這些連接是空閑的, 什么數(shù)據(jù)也不發(fā)送也不接收. 這時(shí), 進(jìn)程只占用了不到 1MB 的內(nèi)存. 但是, 通過程序退出前后的 free 命令對(duì)比, 發(fā)現(xiàn)操作系統(tǒng)用了 200M(大致)內(nèi)存來維護(hù)這 10 萬個(gè)連接! 如果是百萬連接的話, 操作系統(tǒng)本身就要占用 2GB 的內(nèi)存! 也即 2KB 每連接.
可以修改
/proc/sys/net/ipv4/tcp_wmem/proc/sys/net/ipv4/tcp_rmem
來控制 TCP 連接的發(fā)送和接收緩沖的大小(多謝 @egmkang).
3. 應(yīng)用程序維持百萬連接需要多少內(nèi)存?
通過上面的測(cè)試代碼, 可以發(fā)現(xiàn), 應(yīng)用程序維持百萬個(gè)空閑的連接, 只會(huì)占用操作系統(tǒng)的內(nèi)存, 通過 ps 命令查看可知, 應(yīng)用程序本身幾乎不占用內(nèi)存.
4. 百萬連接的吞吐量是否超過了網(wǎng)絡(luò)限制?
假設(shè)百萬連接中有 20% 是活躍的, 每個(gè)連接每秒傳輸 1KB 的數(shù)據(jù), 那么需要的網(wǎng)絡(luò)帶寬是 0.2M x 1KB/s x 8 = 1.6Gbps, 要求服務(wù)器至少是萬兆網(wǎng)卡(10Gbps).
總結(jié)
Linux 系統(tǒng)需要修改內(nèi)核參數(shù)和系統(tǒng)配置, 才能支持 C1000K. C1000K 的應(yīng)用要求服務(wù)器至少需要 2GB 內(nèi)存, 如果應(yīng)用本身還需要內(nèi)存, 這個(gè)要求應(yīng)該是至少 10GB 內(nèi)存. 同時(shí), 網(wǎng)卡應(yīng)該至少是萬兆網(wǎng)卡.
當(dāng)然, 這僅僅是理論分析, 實(shí)際的應(yīng)用需要更多的內(nèi)存和 CPU 資源來處理業(yè)務(wù)數(shù)據(jù).
測(cè)試工具
測(cè)試操作系統(tǒng)最大連接數(shù)的工具: https://github.com/ideawu/c1000k


參考:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市锋玲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件槐臀,死亡現(xiàn)場(chǎng)離奇詭異坪稽,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)僧凰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來熟丸,“玉大人训措,你說我怎么就攤上這事」庑撸” “怎么了绩鸣?”我有些...
    開封第一講書人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)纱兑。 經(jīng)常有香客問我呀闻,道長(zhǎng),這世上最難降的妖魔是什么潜慎? 我笑而不...
    開封第一講書人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任捡多,我火速辦了婚禮,結(jié)果婚禮上铐炫,老公的妹妹穿的比我還像新娘垒手。我一直安慰自己,他們只是感情好倒信,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開白布科贬。 她就那樣靜靜地躺著,像睡著了一般鳖悠。 火紅的嫁衣襯著肌膚如雪榜掌。 梳的紋絲不亂的頭發(fā)上优妙,一...
    開封第一講書人閱讀 51,775評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音憎账,去河邊找鬼套硼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鼠哥,可吹牛的內(nèi)容都是我干的熟菲。 我是一名探鬼主播,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼朴恳,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了允蚣?” 一聲冷哼從身側(cè)響起于颖,我...
    開封第一講書人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嚷兔,沒想到半個(gè)月后森渐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡冒晰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年同衣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片壶运。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡耐齐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蒋情,到底是詐尸還是另有隱情埠况,我是刑警寧澤,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布棵癣,位于F島的核電站辕翰,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏狈谊。R本人自食惡果不足惜喜命,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望河劝。 院中可真熱鬧壁榕,春花似錦、人聲如沸丧裁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)煎娇。三九已至二庵,卻和暖如春贪染,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背催享。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工杭隙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人因妙。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓痰憎,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親攀涵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子铣耘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356

推薦閱讀更多精彩內(nèi)容