Linux網(wǎng)絡(luò) - 數(shù)據(jù)包在內(nèi)核中接收和發(fā)送的過程(轉(zhuǎn))

轉(zhuǎn)載自:


0. 引言

本文將介紹在Linux系統(tǒng)中持搜,數(shù)據(jù)包是如何一步一步從網(wǎng)卡傳到進程手中的以及數(shù)據(jù)包是如何一步一步從應(yīng)用程序到網(wǎng)卡并最終發(fā)送出去的挥下。

如果英文沒有問題透葛,強烈建議閱讀后面參考里的文章,里面介紹的更詳細(xì)然磷。

本文只討論以太網(wǎng)的物理網(wǎng)卡匪燕,不涉及虛擬設(shè)備,并且以一個UDP包的接收過程作為示例.

本示例里列出的函數(shù)調(diào)用關(guān)系來自于kernel 3.13.0空凸,如果你的內(nèi)核不是這個版本,函數(shù)名稱和相關(guān)路徑可能不一樣寸痢,但背后的原理應(yīng)該是一樣的(或者有細(xì)微差別)

1. 數(shù)據(jù)包的接收過程

1.1 網(wǎng)卡到內(nèi)存

網(wǎng)卡需要有驅(qū)動才能工作呀洲,驅(qū)動是加載到內(nèi)核中的模塊,負(fù)責(zé)銜接網(wǎng)卡和內(nèi)核的網(wǎng)絡(luò)模塊啼止,驅(qū)動在加載的時候?qū)⒆约鹤赃M網(wǎng)絡(luò)模塊道逗,當(dāng)相應(yīng)的網(wǎng)卡收到數(shù)據(jù)包時,網(wǎng)絡(luò)模塊會調(diào)用相應(yīng)的驅(qū)動程序處理數(shù)據(jù)献烦。

下圖展示了數(shù)據(jù)包(packet)如何進入內(nèi)存滓窍,并被內(nèi)核的網(wǎng)絡(luò)模塊開始處理:

                   +-----+
                   |     |                            Memroy
+--------+   1     |     |  2  DMA     +--------+--------+--------+--------+
| Packet |-------->| NIC |------------>| Packet | Packet | Packet | ...... |
+--------+         |     |             +--------+--------+--------+--------+
                   |     |<--------+
                   +-----+         |
                      |            +---------------+
                      |                            |
                    3 | Raise IRQ                  | Disable IRQ
                      |                          5 |
                      |                            |
                      ↓                            |
                   +-----+                   +------------+
                   |     |  Run IRQ handler  |            |
                   | CPU |------------------>| NIC Driver |
                   |     |       4           |            |
                   +-----+                   +------------+
                                                   |
                                                6  | Raise soft IRQ
                                                   |
                                                   ↓
  • 1: 數(shù)據(jù)包從外面的網(wǎng)絡(luò)進入物理網(wǎng)卡。如果目的地址不是該網(wǎng)卡巩那,且該網(wǎng)卡沒有開啟混雜模式吏夯,該包會被網(wǎng)卡丟棄。
  • 2: 網(wǎng)卡將數(shù)據(jù)包通過DMA的方式寫入到指定的內(nèi)存地址即横,該地址由網(wǎng)卡驅(qū)動分配并初始化噪生。注: 老的網(wǎng)卡可能不支持DMA,不過新的網(wǎng)卡一般都支持东囚。
  • 3: 網(wǎng)卡通過硬件中斷(IRQ)通知CPU跺嗽,告訴它有數(shù)據(jù)來了
  • 4: CPU根據(jù)中斷表,調(diào)用已經(jīng)注冊的中斷函數(shù)页藻,這個中斷函數(shù)會調(diào)到驅(qū)動程序(NIC Driver)中相應(yīng)的函數(shù)
  • 5: 驅(qū)動先禁用網(wǎng)卡的中斷桨嫁,表示驅(qū)動程序已經(jīng)知道內(nèi)存中有數(shù)據(jù)了,告訴網(wǎng)卡下次再收到數(shù)據(jù)包直接寫內(nèi)存就可以了惕橙,不要再通知CPU了,這樣可以提高效率钉跷,避免CPU不停的被中斷弥鹦。
  • 6: 啟動軟中斷。這步結(jié)束后,硬件中斷處理函數(shù)就結(jié)束返回了彬坏。由于硬中斷處理程序執(zhí)行的過程中不能被中斷朦促,所以如果它執(zhí)行時間過長,會導(dǎo)致CPU沒法響應(yīng)其它硬件的中斷栓始,于是內(nèi)核引入軟中斷务冕,這樣可以將硬中斷處理函數(shù)中耗時的部分移到軟中斷處理函數(shù)里面來慢慢處理。

1.2 內(nèi)核的網(wǎng)絡(luò)模塊

軟中斷會觸發(fā)內(nèi)核網(wǎng)絡(luò)模塊中的軟中斷處理函數(shù)幻赚,后續(xù)流程如下

                                                     +-----+
                                             17      |     |
                                        +----------->| NIC |
                                        |            |     |
                                        |Enable IRQ  +-----+
                                        |
                                        |
                                  +------------+                                      Memroy
                                  |            |        Read           +--------+--------+--------+--------+
                 +--------------->| NIC Driver |<--------------------- | Packet | Packet | Packet | ...... |
                 |                |            |          9            +--------+--------+--------+--------+
                 |                +------------+
                 |                      |    |        skb
            Poll | 8      Raise softIRQ | 6  +-----------------+
                 |                      |             10       |
                 |                      ↓                      ↓
         +---------------+  Call  +-----------+        +------------------+        +--------------------+  12  +---------------------+
         | net_rx_action |<-------| ksoftirqd |        | napi_gro_receive |------->| enqueue_to_backlog |----->| CPU input_pkt_queue |
         +---------------+   7    +-----------+        +------------------+   11   +--------------------+      +---------------------+
                                                               |                                                      | 13
                                                            14 |        + - - - - - - - - - - - - - - - - - - - - - - +
                                                               ↓        ↓
                                                    +--------------------------+    15      +------------------------+
                                                    | __netif_receive_skb_core |----------->| packet taps(AF_PACKET) |
                                                    +--------------------------+            +------------------------+
                                                               |
                                                               | 16
                                                               ↓
                                                      +-----------------+
                                                      | protocol layers |
                                                      +-----------------+
  • 7: 內(nèi)核中的ksoftirqd進程專門負(fù)責(zé)軟中斷的處理禀忆,當(dāng)它收到軟中斷后,就會調(diào)用相應(yīng)軟中斷所對應(yīng)的處理函數(shù)落恼,對于上面第6步中是網(wǎng)卡驅(qū)動模塊拋出的軟中斷箩退,ksoftirqd會調(diào)用網(wǎng)絡(luò)模塊的net_rx_action函數(shù)
  • 8: net_rx_action調(diào)用網(wǎng)卡驅(qū)動里的poll函數(shù)來一個一個的處理數(shù)據(jù)包
  • 9: 在pool函數(shù)中,驅(qū)動會一個接一個的讀取網(wǎng)卡寫到內(nèi)存中的數(shù)據(jù)包佳谦,內(nèi)存中數(shù)據(jù)包的格式只有驅(qū)動知道
  • 10: 驅(qū)動程序?qū)?nèi)存中的數(shù)據(jù)包轉(zhuǎn)換成內(nèi)核網(wǎng)絡(luò)模塊能識別的skb格式戴涝,然后調(diào)用napi_gro_receive函數(shù)
  • 11: napi_gro_receive會處理GRO相關(guān)的內(nèi)容,也就是將可以合并的數(shù)據(jù)包進行合并钻蔑,這樣就只需要調(diào)用一次協(xié)議棧啥刻。然后判斷是否開啟了RPS,如果開啟了咪笑,將會調(diào)用enqueue_to_backlog
  • 12: 在enqueue_to_backlog函數(shù)中可帽,會將數(shù)據(jù)包放入CPU的softnet_data結(jié)構(gòu)體的input_pkt_queue中,然后返回蒲肋,如果input_pkt_queue滿了的話蘑拯,該數(shù)據(jù)包將會被丟棄,queue的大小可以通過net.core.netdev_max_backlog來配置
  • 13: CPU會接著在自己的軟中斷上下文中處理自己input_pkt_queue里的網(wǎng)絡(luò)數(shù)據(jù)(調(diào)用__netif_receive_skb_core)
  • 14: 如果沒開啟RPS兜粘,napi_gro_receive會直接調(diào)用__netif_receive_skb_core
  • 15: 看是不是有AF_PACKET類型的socket(也就是我們常說的原始套接字)申窘,如果有的話,拷貝一份數(shù)據(jù)給它孔轴。tcpdump抓包就是抓的這里的包剃法。
  • 16: 調(diào)用協(xié)議棧相應(yīng)的函數(shù),將數(shù)據(jù)包交給協(xié)議棧處理路鹰。
  • 17: 待內(nèi)存中的所有數(shù)據(jù)包被處理完成后(即poll函數(shù)執(zhí)行完成)贷洲,啟用網(wǎng)卡的硬中斷,這樣下次網(wǎng)卡再收到數(shù)據(jù)的時候就會通知CPU

enqueue_to_backlog函數(shù)也會被netif_rx函數(shù)調(diào)用晋柱,而netif_rx正是lo設(shè)備發(fā)送數(shù)據(jù)包時調(diào)用的函數(shù)

1.3 協(xié)議棧

1.3.1 IP層

由于是UDP包优构,所以第一步會進入IP層,然后一級一級的函數(shù)往下調(diào):

          |
          |
          ↓         promiscuous mode &&
      +--------+    PACKET_OTHERHOST (set by driver)   +-----------------+
      | ip_rcv |-------------------------------------->| drop this packet|
      +--------+                                       +-----------------+
          |
          |
          ↓
+---------------------+
| NF_INET_PRE_ROUTING |
+---------------------+
          |
          |
          ↓
      +---------+
      |         | enabled ip forword  +------------+        +----------------+
      | routing |-------------------->| ip_forward |------->| NF_INET_FORWARD |
      |         |                     +------------+        +----------------+
      +---------+                                                   |
          |                                                         |
          | destination IP is local                                 ↓
          ↓                                                 +---------------+
 +------------------+                                       | dst_output_sk |
 | ip_local_deliver |                                       +---------------+
 +------------------+
          |
          |
          ↓
 +------------------+
 | NF_INET_LOCAL_IN |
 +------------------+
          |
          |
          ↓
    +-----------+
    | UDP layer |
    +-----------+
  • ip_rcv: ip_rcv函數(shù)是IP模塊的入口函數(shù)雁竞,在該函數(shù)里面钦椭,第一件事就是將垃圾數(shù)據(jù)包(目的mac地址不是當(dāng)前網(wǎng)卡拧额,但由于網(wǎng)卡設(shè)置了混雜模式而被接收進來)直接丟掉,然后調(diào)用注冊在NF_INET_PRE_ROUTING上的函數(shù)
  • NF_INET_PRE_ROUTING: netfilter放在協(xié)議棧中的鉤子彪腔,可以通過iptables來注入一些數(shù)據(jù)包處理函數(shù)侥锦,用來修改或者丟棄數(shù)據(jù)包,如果數(shù)據(jù)包沒被丟棄德挣,將繼續(xù)往下走
  • routing: 進行路由恭垦,如果是目的IP不是本地IP,且沒有開啟ip forward功能格嗅,那么數(shù)據(jù)包將被丟棄番挺,如果開啟了ip forward功能,那將進入ip_forward函數(shù)
  • ip_forward: ip_forward會先調(diào)用netfilter注冊的NF_INET_FORWARD相關(guān)函數(shù)吗浩,如果數(shù)據(jù)包沒有被丟棄建芙,那么將繼續(xù)往后調(diào)用dst_output_sk函數(shù)
  • dst_output_sk: 該函數(shù)會調(diào)用IP層的相應(yīng)函數(shù)將該數(shù)據(jù)包發(fā)送出去,同下一篇要介紹的數(shù)據(jù)包發(fā)送流程的后半部分一樣懂扼。
  • ip_local_deliver:如果上面routing的時候發(fā)現(xiàn)目的IP是本地IP禁荸,那么將會調(diào)用該函數(shù),在該函數(shù)中阀湿,會先調(diào)用NF_INET_LOCAL_IN相關(guān)的鉤子程序赶熟,如果通過,數(shù)據(jù)包將會向下發(fā)送到UDP層

1.3.2 UDP層

          |
          |
          ↓
      +---------+            +-----------------------+
      | udp_rcv |----------->| __udp4_lib_lookup_skb |
      +---------+            +-----------------------+
          |
          |
          ↓
 +--------------------+      +-----------+
 | sock_queue_rcv_skb |----->| sk_filter |
 +--------------------+      +-----------+
          |
          |
          ↓
 +------------------+
 | __skb_queue_tail |
 +------------------+
          |
          |
          ↓
  +---------------+
  | sk_data_ready |
  +---------------+
  • udp_rcv: udp_rcv函數(shù)是UDP模塊的入口函數(shù)陷嘴,它里面會調(diào)用其它的函數(shù)映砖,主要是做一些必要的檢查,其中一個重要的調(diào)用是__udp4_lib_lookup_skb灾挨,該函數(shù)會根據(jù)目的IP和端口找對應(yīng)的socket邑退,如果沒有找到相應(yīng)的socket,那么該數(shù)據(jù)包將會被丟棄劳澄,否則繼續(xù)
  • sock_queue_rcv_skb: 主要干了兩件事地技,一是檢查這個socket的receive buffer是不是滿了,如果滿了的話秒拔,丟棄該數(shù)據(jù)包莫矗,然后就是調(diào)用sk_filter看這個包是否是滿足條件的包,如果當(dāng)前socket上設(shè)置了filter砂缩,且該包不滿足條件的話作谚,這個數(shù)據(jù)包也將被丟棄(在Linux里面,每個socket上都可以像tcpdump里面一樣定義filter庵芭,不滿足條件的數(shù)據(jù)包將會被丟棄)
  • __skb_queue_tail: 將數(shù)據(jù)包放入socket接收隊列的末尾
  • sk_data_ready: 通知socket數(shù)據(jù)包已經(jīng)準(zhǔn)備好

調(diào)用完sk_data_ready之后妹懒,一個數(shù)據(jù)包處理完成,等待應(yīng)用層程序來讀取双吆,上面所有函數(shù)的執(zhí)行過程都在軟中斷的上下文中眨唬。

1.4 socket

應(yīng)用層一般有兩種方式接收數(shù)據(jù)滔悉,一種是recvfrom函數(shù)阻塞在那里等著數(shù)據(jù)來,這種情況下當(dāng)socket收到通知后单绑,recvfrom就會被喚醒,然后讀取接收隊列的數(shù)據(jù)曹宴;另一種是通過epoll或者select監(jiān)聽相應(yīng)的socket搂橙,當(dāng)收到通知后,再調(diào)用recvfrom函數(shù)去讀取接收隊列的數(shù)據(jù)笛坦。兩種情況都能正常的接收到相應(yīng)的數(shù)據(jù)包区转。

1.5 小結(jié)

了解數(shù)據(jù)包的接收流程有助于幫助我們搞清楚我們可以在哪些地方監(jiān)控和修改數(shù)據(jù)包,哪些情況下數(shù)據(jù)包可能被丟棄版扩,為我們處理網(wǎng)絡(luò)問題提供了一些參考废离,同時了解netfilter中相應(yīng)鉤子的位置,對于了解iptables的用法有一定的幫助礁芦,同時也會幫助我們后續(xù)更好的理解Linux下的網(wǎng)絡(luò)虛擬設(shè)備蜻韭。

2. 數(shù)據(jù)包的發(fā)送過程

2.1 socket層

               +-------------+
               | Application |
               +-------------+
                     |
                     |
                     ↓
+------------------------------------------+
| socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP) |
+------------------------------------------+
                     |
                     |
                     ↓
           +-------------------+
           | sendto(sock, ...) |
           +-------------------+
                     |
                     |
                     ↓
              +--------------+
              | inet_sendmsg |
              +--------------+
                     |
                     |
                     ↓
             +---------------+
             | inet_autobind |
             +---------------+
                     |
                     |
                     ↓
               +-----------+
               | UDP layer |
               +-----------+
  • socket(...): 創(chuàng)建一個socket結(jié)構(gòu)體,并初始化相應(yīng)的操作函數(shù)柿扣,由于我們定義的是UDP的socket肖方,所以里面存放的都是跟UDP相關(guān)的函數(shù)
  • sendto(sock, ...): 應(yīng)用層的程序(Application)調(diào)用該函數(shù)開始發(fā)送數(shù)據(jù)包,該函數(shù)數(shù)會調(diào)用后面的inet_sendmsg
  • inet_sendmsg: 該函數(shù)主要是檢查當(dāng)前socket有沒有綁定源端口未状,如果沒有的話俯画,調(diào)用inet_autobind分配一個,然后調(diào)用UDP層的函數(shù)
  • inet_autobind: 該函數(shù)會調(diào)用socket上綁定的get_port函數(shù)獲取一個可用的端口司草,由于該socket是UDP的socket艰垂,所以get_port函數(shù)會調(diào)到UDP代碼里面的相應(yīng)函數(shù)。

2.2 UDP層

                     |
                     |
                     ↓
              +-------------+
              | udp_sendmsg |
              +-------------+
                     |
                     |
                     ↓
          +----------------------+
          | ip_route_output_flow |
          +----------------------+
                     |
                     |
                     ↓
              +-------------+
              | ip_make_skb |
              +-------------+
                     |
                     |
                     ↓
         +------------------------+
         | udp_send_skb(skb, fl4) |
         +------------------------+
                     |
                     |
                     ↓
                +----------+
                | IP layer |
                +----------+
  • udp_sendmsg: udp模塊發(fā)送數(shù)據(jù)包的入口埋虹,該函數(shù)較長猜憎,在該函數(shù)中會先調(diào)用ip_route_output_flow獲取路由信息(主要包括源IP和網(wǎng)卡),然后調(diào)用ip_make_skb構(gòu)造skb結(jié)構(gòu)體吨岭,最后將網(wǎng)卡的信息和該skb關(guān)聯(lián)拉宗。
  • ip_route_output_flow: 該函數(shù)會根據(jù)路由表和目的IP,找到這個數(shù)據(jù)包應(yīng)該從哪個設(shè)備發(fā)送出去辣辫,如果該socket沒有綁定源IP旦事,該函數(shù)還會根據(jù)路由表找到一個最合適的源IP給它。 如果該socket已經(jīng)綁定了源IP急灭,但根據(jù)路由表姐浮,從這個源IP對應(yīng)的網(wǎng)卡沒法到達目的地址,則該包會被丟棄葬馋,于是數(shù)據(jù)發(fā)送失敗卖鲤,sendto函數(shù)將返回錯誤肾扰。該函數(shù)最后會將找到的設(shè)備和源IP塞進flowi4結(jié)構(gòu)體并返回給udp_sendmsg
  • ip_make_skb: 該函數(shù)的功能是構(gòu)造skb包,構(gòu)造好的skb包里面已經(jīng)分配了IP包頭蛋逾,并且初始化了部分信息(IP包頭的源IP就在這里被設(shè)置進去)集晚,同時該函數(shù)會調(diào)用__ip_append_dat,如果需要分片的話区匣,會在__ip_append_data函數(shù)中進行分片偷拔,同時還會在該函數(shù)中檢查socket的send buffer是否已經(jīng)用光,如果被用光的話亏钩,返回ENOBUFS
  • udp_send_skb(skb, fl4) 主要是往skb里面填充UDP的包頭莲绰,同時處理checksum,然后調(diào)用IP層的相應(yīng)函數(shù)姑丑。

2.3 IP層

          |
          |
          ↓
   +-------------+
   | ip_send_skb |
   +-------------+
          |
          |
          ↓
  +-------------------+       +-------------------+       +---------------+
  | __ip_local_out_sk |------>| NF_INET_LOCAL_OUT |------>| dst_output_sk |
  +-------------------+       +-------------------+       +---------------+
                                                                  |
                                                                  |
                                                                  ↓
 +------------------+        +----------------------+       +-----------+
 | ip_finish_output |<-------| NF_INET_POST_ROUTING |<------| ip_output |
 +------------------+        +----------------------+       +-----------+
          |
          |
          ↓
  +-------------------+      +------------------+       +----------------------+
  | ip_finish_output2 |----->| dst_neigh_output |------>| neigh_resolve_output |
  +-------------------+      +------------------+       +----------------------+
                                                                   |
                                                                   |
                                                                   ↓
                                                           +----------------+
                                                           | dev_queue_xmit |
                                                           +----------------+
  • ip_send_skb: IP模塊發(fā)送數(shù)據(jù)包的入口蛤签,該函數(shù)只是簡單的調(diào)用一下后面的函數(shù)
  • __ip_local_out_sk: 設(shè)置IP報文頭的長度和checksum,然后調(diào)用下面netfilter的鉤子
  • NF_INET_LOCAL_OUT: netfilter的鉤子栅哀,可以通過iptables來配置怎么處理該數(shù)據(jù)包震肮,如果該數(shù)據(jù)包沒被丟棄,則繼續(xù)往下走
  • dst_output_sk: 該函數(shù)根據(jù)skb里面的信息留拾,調(diào)用相應(yīng)的output函數(shù)钙蒙,在我們UDP IPv4這種情況下,會調(diào)用ip_output
  • ip_output: 將上面udp_sendmsg得到的網(wǎng)卡信息寫入skb间驮,然后調(diào)用NF_INET_POST_ROUTING的鉤子
  • NF_INET_POST_ROUTING: 在這里躬厌,用戶有可能配置了SNAT,從而導(dǎo)致該skb的路由信息發(fā)生變化
  • ip_finish_output: 這里會判斷經(jīng)過了上一步后竞帽,路由信息是否發(fā)生變化扛施,如果發(fā)生變化的話,需要重新調(diào)用dst_output_sk(重新調(diào)用這個函數(shù)時屹篓,可能就不會再走到ip_output疙渣,而是走到被netfilter指定的output函數(shù)里,這里有可能是xfrm4_transport_output)堆巧,否則往下走
  • ip_finish_output2: 根據(jù)目的IP到路由表里面找到下一跳(nexthop)的地址妄荔,然后調(diào)用__ipv4_neigh_lookup_noref去arp表里面找下一跳的neigh信息,沒找到的話會調(diào)用__neigh_create構(gòu)造一個空的neigh結(jié)構(gòu)體
  • dst_neigh_output: 在該函數(shù)中谍肤,如果上一步ip_finish_output2沒得到neigh信息啦租,那么將會走到函數(shù)neigh_resolve_output中,否則直接調(diào)用neigh_hh_output荒揣,在該函數(shù)中篷角,會將neigh信息里面的mac地址填到skb中,然后調(diào)用dev_queue_xmit發(fā)送數(shù)據(jù)包
  • neigh_resolve_output: 該函數(shù)里面會發(fā)送arp請求系任,得到下一跳的mac地址恳蹲,然后將mac地址填到skb中并調(diào)用dev_queue_xmit

2.4 netdevice子系統(tǒng)

                          |
                          |
                          ↓
                   +----------------+
  +----------------| dev_queue_xmit |
  |                +----------------+
  |                       |
  |                       |
  |                       ↓
  |              +-----------------+
  |              | Traffic Control |
  |              +-----------------+
  | loopback              |
  |   or                  +--------------------------------------------------------------+
  | IP tunnels            ↓                                                              |
  |                       ↓                                                              |
  |            +---------------------+  Failed   +----------------------+         +---------------+
  +----------->| dev_hard_start_xmit |---------->| raise NET_TX_SOFTIRQ |- - - - >| net_tx_action |
               +---------------------+           +----------------------+         +---------------+
                          |
                          +----------------------------------+
                          |                                  |
                          ↓                                  ↓
                  +----------------+              +------------------------+
                  | ndo_start_xmit |              | packet taps(AF_PACKET) |
                  +----------------+              +------------------------+
  • dev_queue_xmit: netdevice子系統(tǒng)的入口函數(shù)虐块,在該函數(shù)中,會先獲取設(shè)備對應(yīng)的qdisc嘉蕾,如果沒有的話(如loopback或者IP tunnels)贺奠,就直接調(diào)用dev_hard_start_xmit,否則數(shù)據(jù)包將經(jīng)過Traffic Control模塊進行處理
  • Traffic Control: 這里主要是進行一些過濾和優(yōu)先級處理错忱,在這里敞嗡,如果隊列滿了的話,數(shù)據(jù)包會被丟掉航背,詳情請參考文檔,這步完成后也會走到dev_hard_start_xmit
  • dev_hard_start_xmit: 該函數(shù)中棱貌,首先是拷貝一份skb給“packet taps”玖媚,tcpdump就是從這里得到數(shù)據(jù)的,然后調(diào)用ndo_start_xmit婚脱。如果dev_hard_start_xmit返回錯誤的話(大部分情況可能是NETDEV_TX_BUSY)今魔,調(diào)用它的函數(shù)會把skb放到一個地方,然后拋出軟中斷NET_TX_SOFTIRQ障贸,交給軟中斷處理程序net_tx_action稍后重試(如果是loopback或者IP tunnels的話错森,失敗后不會有重試的邏輯)
  • ndo_start_xmit: 這是一個函數(shù)指針,會指向具體驅(qū)動發(fā)送數(shù)據(jù)的函數(shù)

2.5 Device Driver

ndo_start_xmit會綁定到具體網(wǎng)卡驅(qū)動的相應(yīng)函數(shù)篮洁,到這步之后涩维,就歸網(wǎng)卡驅(qū)動管了,不同的網(wǎng)卡驅(qū)動有不同的處理方式袁波,這里不做詳細(xì)介紹瓦阐,其大概流程如下:

  1. 將skb放入網(wǎng)卡自己的發(fā)送隊列
  2. 通知網(wǎng)卡發(fā)送數(shù)據(jù)包
  3. 網(wǎng)卡發(fā)送完成后發(fā)送中斷給CPU
  4. 收到中斷后進行skb的清理工作

在網(wǎng)卡驅(qū)動發(fā)送數(shù)據(jù)包過程中,會有一些地方需要和netdevice子系統(tǒng)打交道篷牌,比如網(wǎng)卡的隊列滿了睡蟋,需要告訴上層不要再發(fā)了,等隊列有空閑的時候枷颊,再通知上層接著發(fā)數(shù)據(jù)戳杀。

2.6 其它

  • SO_SNDBUF: 從上面的流程中可以看出來,對于UDP來說夭苗,沒有一個對應(yīng)send buffer存在信卡,SO_SNDBUF只是一個限制,當(dāng)這個socket分配的skb占用的內(nèi)存超過這個值的時候题造,會返回ENOBUFS坐求,所以說只要不出現(xiàn)ENOBUFS錯誤,把這個值調(diào)大沒有意義晌梨。從sendto函數(shù)的幫助文件里面看到這樣一句話:(Normally, this does not occur in Linux. Packets are just silently dropped when a device queue overflows.)桥嗤。這里的device queue應(yīng)該指的是Traffic Control里面的queue须妻,說明在linux里面,默認(rèn)的SO_SNDBUF值已經(jīng)夠queue用了泛领,疑問的地方是荒吏,queue的長度和個數(shù)是可以配置的,如果配置太大的話渊鞋,按道理應(yīng)該有可能會出現(xiàn)ENOBUFS的情況绰更。
  • txqueuelen: 很多地方都說這個是控制qdisc里queue的長度的,但貌似只是部分類型的qdisc用了該配置锡宋,如linux默認(rèn)的pfifo_fast儡湾。
  • hardware RX: 一般網(wǎng)卡都有一個自己的ring queue,這個queue的大小可以通過ethtool來配置执俩,當(dāng)驅(qū)動收到發(fā)送請求時徐钠,一般是放到這個queue里面,然后通知網(wǎng)卡發(fā)送數(shù)據(jù)役首,當(dāng)這個queue滿的時候尝丐,會給上層調(diào)用返回NETDEV_TX_BUSY
  • packet taps(AF_PACKET): 當(dāng)?shù)谝淮伟l(fā)送數(shù)據(jù)包和重試發(fā)送數(shù)據(jù)包時,都會經(jīng)過這里衡奥,如果發(fā)生重試的情況的話爹袁,不確定tcpdump是否會抓到兩次包,按道理應(yīng)該不會矮固,可能是我哪里沒看懂

原作者參考文獻:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末失息,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子档址,更是在濱河造成了極大的恐慌根时,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辰晕,死亡現(xiàn)場離奇詭異蛤迎,居然都是意外死亡,警方通過查閱死者的電腦和手機含友,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門替裆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人窘问,你說我怎么就攤上這事辆童。” “怎么了惠赫?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵把鉴,是天一觀的道長。 經(jīng)常有香客問我,道長庭砍,這世上最難降的妖魔是什么场晶? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮怠缸,結(jié)果婚禮上诗轻,老公的妹妹穿的比我還像新娘。我一直安慰自己揭北,他們只是感情好扳炬,可當(dāng)我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著搔体,像睡著了一般恨樟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上疚俱,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天劝术,我揣著相機與錄音,去河邊找鬼计螺。 笑死,一個胖子當(dāng)著我的面吹牛瞧壮,可吹牛的內(nèi)容都是我干的登馒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼咆槽,長吁一口氣:“原來是場噩夢啊……” “哼陈轿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起秦忿,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤麦射,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后灯谣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體潜秋,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年胎许,在試婚紗的時候發(fā)現(xiàn)自己被綠了峻呛。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡辜窑,死狀恐怖钩述,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情穆碎,我是刑警寧澤牙勘,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站所禀,受9級特大地震影響方面,放射性物質(zhì)發(fā)生泄漏放钦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一葡幸、第九天 我趴在偏房一處隱蔽的房頂上張望最筒。 院中可真熱鬧,春花似錦蔚叨、人聲如沸床蜘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽邢锯。三九已至,卻和暖如春搀别,著一層夾襖步出監(jiān)牢的瞬間丹擎,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工歇父, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蒂培,地道東北人。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓榜苫,卻偏偏與公主長得像护戳,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子垂睬,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,901評論 2 345