掌握Linux内核网络：核心数据结构sk_buff

在Linux内核网络的复杂世界中，对于从事网络协议和设备驱动开发的开发者和系统管理员来说，理解核心数据结构至关重要。其中，sk_buff（socket buffer，套接字缓冲区）作为基础元素脱颖而出，它是整个协议栈中网络数据包的主要容器。本文深入探讨了sk_buff的结构、字段和操作，提供了一份全面指南，解释它如何从接收到传输实现高效的数据包处理。

Linux网络中sk_buff概述

sk_buff结构是Linux网络子系统的基石，在内核头文件<linux/skbuff.h>中定义。它封装了网络数据包，包括协议头、负载数据以及协议栈各层所需的元数据，例如第2层（MAC）、第3层（IP）和第4层（TCP/UDP）。

当数据包穿越协议栈时，sk_buff实例在各层之间传递，而无需进行不必要的数据拷贝。对于出站数据包，通过移动指针而不是重新分配内存来预置头部。对于入站数据包，通过调整数据指针来跳过较低层的头部，从而提升效率。这种设计在高吞吐量环境中能最大限度地减少开销。

sk_buff中的字段主要分为布局管理、通用属性、协议特定元素以及通过内核配置选项启用的条件特性。这些字段随着内核的迭代而演进，以适应新的网络需求。

布局字段：管理sk_buff链

sk_buff实例通常组织成双向链表，用于数据包队列，例如在设备驱动或协议队列中。为了便于从任意节点快速访问链表头部，内核在前端引入了一个轻量级的sk_buff_head结构：

next 和 prev：指向后续和前驱节点的指针，与标准双向链表机制相同。
qlen：队列中节点数量的计数器。
lock：用于多核环境中线程安全的自旋锁。

每个sk_buff节点都包含一个list指针，直接指向sk_buff_head，从而实现O(1)时间遍历到根部。这种设置允许两种结构无缝集成在同一链表中，并共享操作函数。

这种组织对于性能关键路径至关重要，例如中断处理程序中，需要快速的入队/出队操作。

核心字段：数据包数据和元数据

sk_buff中有几个字段负责处理数据包的数据布局和基本属性：

sk：指向关联的struct sock的指针，将缓冲区链接到套接字，用于本地生成或接收的数据。对于转发的数据包（源地址和目标地址均为远程），此值通常为NULL。
len：缓冲区中数据的总长度，包括主要负载和任何片段。随着头部在栈遍历中被添加或剥离，该值会发生变化。
data_len：仅非连续片段中数据的长度，不包括线性部分。
mac_len：第2层（MAC）头部的长度。
users：缓冲区的原子引用计数器，跟踪活跃用户。通过skb_get()递增，并通过kfree_skb()递减，以防止过早释放。

truesize：缓冲区的完整内存占用，包括sk_buff开销和对齐填充。在分配时计算为：

text

SKB_TRUESIZE(X) = (X) + SKB_DATA_ALIGN(sizeof(struct sk_buff)) + SKB_DATA_ALIGN(sizeof(struct skb_shared_info))

边界指针定义了缓冲区的内存区域：

head：分配缓冲区的起始位置。
end：分配缓冲区的结束位置。
data：当前数据的起始位置（初始时在预留头部空间之后）。
tail：当前数据的结束位置。

这些指针允许各层在head和data之间插入头部，或在tail和end之间追加负载，而无需重新分配。

destructor：缓冲区释放时调用的回调函数。对于绑定到套接字的缓冲区，通常指向sock_rfree或sock_wfree，以更新套接字内存统计。

通用字段：时间戳和设备信息

通用字段提供与特定特性无关的上下文：

stamp：一个struct timeval时间戳，用于接收或调度的数据包，由设备驱动中的netif_rx()设置。
dev：指向传输的输出设备或入站数据包的接收接口的指针。
input_dev：接收数据包的入口设备；对于本地生成的数据包，为NULL。
real_dev：对于虚拟接口（例如VLAN或绑定），指向底层物理设备。

协议头联合体便于层特定访问：

h：第4层头部（例如TCP/UDP）。
nh：第3层头部（例如IP）。
mac：第2层头部（例如Ethernet）。

每个联合体包括一个raw成员用于通用访问，以及协议特定结构。在处理过程中，一层初始化其联合体（例如IP设置nh），在skb->data处处理头部，然后将data推进到下一层的起始位置。

dst：来自目标缓存的路由条目，由路由子系统使用。
cb[40]：一个40字节的控制缓冲区，用于层私有数据。通过宏如TCP_SKB_CB(__skb)访问，用于TCP序列号、标志和ACK。例如TCP中的用法：
text
```
TCP_SKB_CB(skb)->seq = ntohl(th->seq);
TCP_SKB_CB(skb)->end_seq = TCP_SKB_CB(skb)->seq + th->syn + th->fin + skb->len - (th->doff * 4);
```
csum 和 ip_summed：校验和值及验证标志。
cloned：指示克隆缓冲区（共享数据）的标志。
pkt_type：根据第2层目标地址对帧进行分类（例如PACKET_HOST用于本地单播，PACKET_MULTICAST用于组地址，PACKET_LOOPBACK用于环回流量）。
protocol：更高层协议（例如ETH_P_IP用于IPv4），由驱动在netif_rx()前设置。
security：数据包安全级别，最初为IPsec引入。

特性特定字段：条件内核选项

为了支持如Netfilter或QoS的模块化特性，字段使用#ifdef条件编译：

Netfilter：nfmark、nfcache、nfctinfo、nfct、nfdebug、nf_bridge。
流量控制：tc_index、tc_verd、tc_classid。
HIPPI：private联合体，用于高性能接口。

这些字段启用如防火墙数据包标记或QoS分类的功能，而不膨胀基本结构。

管理函数：操纵缓冲区布局

内核函数高效调整缓冲区的数据指针，而避免数据移动：

函数	目的	对指针的影响
skb_put(len)	在尾部追加空间用于新数据。	将tail推进len；返回新尾部指针。
skb_push(len)	在头部预置空间用于头部。	将data向后推进len；返回新数据指针。
skb_pull(len)	从头部移除数据（例如处理头部后）。	将data向前推进len；减少len。
skb_reserve(len)	提前预留头部空间，用于未来头部或对齐数据。	将data和tail都推进len。

这些函数通常有__变体用于底层使用，由带有检查的安全版本包装。例如，以太网驱动使用skb_reserve(skb, 2)在14字节MAC头部后将IP头部对齐到16字节边界。

在传输中，TCP在分配时预留所有潜在头部的空间（通过MAX_TCP_HEADER），然后每层通过向下移动指针预置其头部。

内存分配和释放

分配

alloc_skb(size, gfp_mask)：在net/core/skbuff.c中的主要分配器。从slab缓存通过kmem_cache_alloc获取sk_buff，并通过kmalloc获取数据缓冲区（使用SKB_DATA_ALIGN对齐）。初始化truesize、指针，并附加skb_shared_info以支持分片。
dev_alloc_skb(size)：适合驱动的中断上下文包装器（GFP_ATOMIC）。预留额外头部空间（通常16字节）用于对齐。

结果包括对齐填充和尾部的skb_shared_info块。

释放

kfree_skb(skb)：递减users；仅当计数为零时释放，返回到slab缓存。dev_kfree_skb是宏别名。
引用计数确保共享缓冲区（例如克隆的）在所有用户释放前持久存在。

数据对齐和skb_shared_info

skb_reserve用空间换时间，通过预分配头部空间，仅更新指针：

static inline void skb_reserve(struct sk_buff *skb, int len) {
    skb->data += len;
    skb->tail += len;
}

对于分片数据包（例如由于MTU的IP），skb_shared_info（通过skb_shinfo()访问）跟踪：

dataref：数据区域的引用计数。
nr_frags、frag_list、frags[MAX_SKB_FRAGS]：片段描述符。

使用skb_is_nonlinear()检查分片，并使用skb_linearize()合并成线性缓冲区。

sk_buff的克隆和拷贝

为了在不完全复制的情况下共享缓冲区，skb_clone()拷贝sk_buff头部（设置cloned=1，克隆的users=1，递增原始dataref），但共享数据指针。适合只读分发（例如到网络tap）。

对于修改：

pskb_copy()：仅克隆线性数据区域（head和end之间），片段保持共享。
skb_copy()：完整深拷贝，包括片段，用于无限制更改。

开发人员必须在修改前拷贝，以在模块化内核组件中保留不变性。

队列管理函数

sk_buff队列使用自旋锁原子操作：

skb_queue_head_init(q)：初始化空的sk_buff_head。
skb_queue_head(q, skb) / skb_queue_tail(q, skb)：在头部或尾部入队。
skb_dequeue(q) / skb_dequeue_tail(q)：从头部或尾部出队。
skb_queue_purge(q)：清空队列，释放所有节点。

skb_queue_walk(q, skb)：通过宏迭代：

#define skb_queue_walk(queue, skb) \
    for (skb = (queue)->next; skb != (struct sk_buff *)(queue); skb = skb->next)

这些确保对中断或定时器的线程安全。

结论：利用sk_buff实现高效网络

sk_buff结构体现了Linux内核在网络中的性能和模块化重点。通过掌握其字段、分配策略和管理函数，开发人员可以在自定义驱动或模块中优化数据包处理。无论是处理高速以太网还是分片IP流量，sk_buff都是内核网络实现中不可或缺的组成部分。

近期文章

服务器设置和教程 · 15 9 月, 2025

掌握Linux内核网络：核心数据结构sk_buff

Linux网络中sk_buff概述

布局字段：管理sk_buff链

核心字段：数据包数据和元数据

通用字段：时间戳和设备信息

特性特定字段：条件内核选项

管理函数：操纵缓冲区布局

内存分配和释放

分配

释放

数据对齐和skb_shared_info

sk_buff的克隆和拷贝

队列管理函数

结论：利用sk_buff实现高效网络

You may also like...

服务器设置和教程 · 15 9 月, 2025

Linux网络中sk_buff概述

布局字段：管理sk_buff链

核心字段：数据包数据和元数据

通用字段：时间戳和设备信息

特性特定字段：条件内核选项

管理函数：操纵缓冲区布局

内存分配和释放

分配

释放

数据对齐和skb_shared_info

sk_buff的克隆和拷贝

队列管理函数

结论：利用sk_buff实现高效网络

You may also like...

看如何查看Redis緩存數據（redis緩存數據怎麼查）

Nest 使用 TypeORM 报错“Nest can\’t resolve dependencies of the BookService…”，如何解决？

遠程桌面提示“出現身份驗證錯誤，要求的函數不受支持”