游乐游手机版
首页/科技数码/文章详情

零拷贝技术解读:如何优化CPU开销提升I/O性能?

时间:2025-10-30 20:11
在实际场景中,我们可以使用sendfile发送静态文件,比如nginx就支持这种配置;可以通过mmap来映射日志文件数据到用户空间,写完后通过内核将数据刷到磁盘,提升写入性能。比较优秀的使用者还有k

在实际应用中,我们可以利用sendfile技术高效传输静态文件,比如nginx就内置了对这一功能的支持;通过mmap将日志数据映射到用户空间,写入操作由内核自动刷回磁盘,显著提升了写入性能。像Kafka这样优秀的系统同样运用了零拷贝技术来增强其数据传输能力。

0. 引言

在高并发场景中,传统的I/O操作需要进行多次数据拷贝,很容易成为系统性能瓶颈。而零拷贝技术(Zero-Copy)通过消除冗余的数据拷贝,使系统轻松实现百万级吞吐量(如Kafka)。本文将从内核原理、API实现到实战应用,深入解析这项关键技术。

1. 零拷贝原理

零拷贝是一种高效的数据传输技术,核心目标是减少数据拷贝次数来提升性能,接下来我们详细探讨其实现原理。

要理解零拷贝的原理,首先需要掌握传统数据传输过程,也就是我们之前讨论的read和write流程。让我们来梳理一下(以读取磁盘数据通过网络发送为例):用户调用read系统调用来请求文件数据,此时CPU需要切换到内核态,然后通过DMA将磁盘数据拷贝到内核空间,再将内核缓冲区数据拷贝到用户空间缓冲区,之后CPU切换回用户态;对于写操作来说,用户调用write系统调用,从用户态切换到内核态,然后将数据从用户缓冲区拷贝到Socket关联的缓冲区,随后数据由DMA传送至网卡缓冲区,最后返回,从内核态切换至用户态。

图片图片

有了对传统数据传输流程的认识,我们接着来看零拷贝的相同操作流程:用户进程发起sendfile系统调用,触发DMA拷贝将数据复制到内核缓冲区,然后把内核缓冲区数据复制到网卡,将文件描述信息拷贝到socket缓冲区,随后切换回用户态。

图片

通过对上面两个流程的对比,我们可以理解,零拷贝(指的是消除了内核到用户空间的数据拷贝)就是减少了数据的拷贝和用户-内核空间的切换。

2. 零拷贝接口实现(代码均基于Linux 5.10)

2.1 sendfile

2.1.1 函数定义

sendfile用于在两个文件描述符之间传递数据。

#include 
//out_fd:输出文件描述符,通常为套接字描述符。
//in_fd:输入文件描述符,必须是一个支持 mmap() 操作的文件描述符。
//offset:指定从文件的哪个偏移量开始读取数据,如果为 NULL,则从当前文件指针位置开始。
//count:要传输的数据长度。
//sendfile() 成功返回实际传输的字节数,失败返回 -1。
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
2.1.2 函数源码解析

sendfile核心函数为do_sendfile,而do_sendfile中主要函数为splice_direct_to_actor,接下来我们对其流程梳理如下,其通过内部管道消除了向用户空间的拷贝。

图片图片

2.2 mmap

2.2.1 函数定义

mmap用于申请一段内存空间,将内核缓冲区数据映射到用户空间。

#include 
//addr:指定映射的起始地址,通常设为 NULL,由系统自动分配。
//length:映射的长度。
//prot:映射区域的保护方式,如 PROT_READ(可读)、PROT_WRITE(可写)等。
//flags:映射的标志,如 MAP_SHARED(共享映射)、MAP_PRIVATE(私有映射)等。
//fd:要映射的文件描述符。
//offset:映射的起始偏移量。
void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
int munmap(void *addr, size_t length);

图片图片

2.2.2 函数源码解析

mmap中主要调用为ksys_mmap_pgoff,最终会落到do_mmap函数,其整体流程如下,通过多次检测和惰性分配以及权限分离来实现:

图片图片

2.3 splice

2.3.1 函数定义

splice用于在两个文件描述符之间移动数据。

#include 
//fd_in:输入文件描述符。
//off_in:输入文件的偏移量指针。
//fd_out:输出文件描述符。
//off_out:输出文件的偏移量指针。
//len:要传输的数据长度。
//flags:传输标志,如 SPLICE_F_MOVE(尝试移动数据)、SPLICE_F_NONBLOCK(非阻塞操作)等。
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);
2.3.2 源码分析

其实现也是依赖管道缓冲区,通过内核区创建和转移所有权避免了向用户空间拷贝。

2.4 tee

2.4.1 函数定义

tee用于在两个管道描述符之间复制数据,和splice差异存在于一个是复制一个是移动,且tee只支持管道。

#include 
//out_fd : 待写入内容的文件描述符
//in_fd : 待读取出内容的文件描述符
//len : 需要复制的字节数
//flags : 选项
//返回值:成功:返回在两个文件描述符之间复制的字节数;没有数据:返回0
ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);

2.4.2 实现分析

和splice类似,只不过一个是移交所有权,一个是增加引用。

3. 实际应用以及分析

在实际场景中,我们可以使用sendfile发送静态文件,比如nginx就支持这种配置;可以通过mmap来映射日志文件数据到用户空间,写完后通过内核将数据刷到磁盘,提升写入性能。比较优秀的使用者还有kafka,其也是通过零拷贝提升其数据传输能力。

4. 总结

本文介绍了零拷贝的原理、相关接口实现和一些实际例子,下届将继续IO系列,IO性能的衡量和监控。

来源:https://www.51cto.com/article/827135.html
上一篇19岁外卖小哥救人获赞:超20分钟延误获顾客理解 下一篇SaaS领域AI创新:解析云端商业工具的7大进化路径
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的