哈利法大学实现5G语义理解为6G智能管理奠基突破

时间：2026-06-23 15:07

基于Free5GC构建了完整开源NWDAF系统，集成大语言模型接口，运维人员可用自然语言查询与执行操作。两周实验显示系统CPU占用仅0 06%，内存约27MB。语义嵌入模型意图分类准确率达98 43%，切换预测准确率约80%，为6G智能管理奠定基础。

这项研究由阿联酋哈利法大学（KU）6G研究中心、加拿大西蒙弗雷泽大学工程科学学院，以及哈利法大学网络物理系统研究中心（C2PS）共同完成。其预印本于2026年6月发布，论文编号为arXiv:2606.11877v1。如果您对技术细节感兴趣，可直接访问arXiv网站，通过该编号查找并阅读完整论文。

**手机信号背后，有一套你从未听说过的“大脑”**

每一次用手机刷视频、打电话或发消息，背后都有一套极为复杂的5G核心网络在持续运作。这套网络不仅需要管理成千上万台设备的连接，还得实时分配资源、处理突发故障、预测网络拥堵——本质上就是一个全天候不间断运行的“神经中枢”。那么，负责提供这些智能分析能力的核心角色是什么？它被称为网络数据分析功能，即NWDAF。

尽管5G标准早已定义了NWDAF，但一直以来，其开源实现极为稀少。更关键的是，大多数已有的实现往往只能算个“哑巴系统”——虽然能展示仪表盘，但无法主动采集数据或响应指令。至于让普通网络运维人员通过自然语言直接操控它？几乎不可能。传统系统要求操作者精通复杂的编程接口和专业命令行，技术门槛极高。

这篇论文的切入点正是于此。研究团队不仅搭建了一套完整、可实际运行的开源NWDAF系统，还为其集成了能够“理解自然语言”的大语言模型（LLM）接口。换句话说，运维人员今后可以直接用日常用语提问：“现在有多少台设备在线？”或“请取消对AMF事件的订阅”，系统便能自动理解并执行——就像与一位经验丰富的网络工程师交流一样自然。

这不仅是工程实现上的突破，更是向“AI原生6G网络”迈出的坚实一步。

**一、5G网络的“神经中枢”到底是什么？**

要理解这项研究，首先需要了解5G核心网络的工作机制。

5G网络采用“服务化架构”（SBA），可以把它想象成一座现代化的办公大楼。大楼内设有多个部门，每个部门各司其职，通过标准化的内部通信系统协同工作。这些“部门”在技术上被称为网络功能（NF），例如负责设备注册和移动管理的接入与移动管理功能（AMF）、负责建立和管理数据会话的会话管理功能（SMF）、负责转发用户数据的用户平面功能（UPF），以及负责服务目录管理的网络存储库功能（NRF）等。

这些部门之间的沟通方式相当现代——全部采用RESTful API，类似于网页请求的方式。任何一个部门都能动态发现并联系其他部门，无需提前固定联系方式。这种设计使网络能够灵活扩展，新增或替换某个功能模块时，其他模块无需随之大幅改动。

NWDAF就是这座大楼里的“数据分析部门”。它的职责是从其他所有部门收集数据，进行分析，并将分析结果提供给需要的人。例如，AMF会通知NWDAF“设备A刚刚注册”或“设备B发生了切换”，SMF则会汇报“某个数据会话已建立”或“已被终止”。NWDAF将这些分散的信息汇聚起来，形成有价值的网络洞察。从3GPP第15版标准起，这一机制已正式被纳入5G体系。

问题在于，标准虽然定义了NWDAF，但在真实的开源5G系统中，其实现极为有限。大多数项目要么根本没有NWDAF，要么仅有极其基础的骨架，缺乏真正的数据采集能力和分析功能。这项研究的出发点，正是要填补这一空白。

**二、研究团队搭建了什么？一套完整的“智能网络大脑”**

研究团队基于Free5GC这个开源5G核心网络平台，从零开始构建了一套完整的NWDAF实现。Free5GC是目前最主流的开源5G核心网络之一，遵循3GPP第15版及以上标准，支持AMF、SMF、UPF、NRF等完整的网络功能套件。

整套系统主要由三部分构成，彼此紧密配合。

第一部分是5G核心网络本身，由Free5GC承担。核心网内包含前面提到的各个“部门”，它们通过服务化接口（SBI）相互通信。研究团队在AMF和SMF中实现了完整的事件订阅机制，即NWDAF可以主动“订阅”这些部门的事件通知——就像订阅一份实时新闻推送，一旦感兴趣的事件发生，立刻就能收到。AMF支持的订阅事件包括设备注册、取消注册、切换更新和连接状态变化；SMF方面，支持的订阅事件包括PDU会话的建立和修改。

第二部分是无线接入网络（RAN）和用户设备（UE）的模拟，由UERANSIM这个开源工具负责。UERANSIM可以模拟多个基站（gNodeB）和用户设备，支持5G协议栈的完整实现，包括控制平面的NGAP协议和用户平面的GTP-U协议。研究团队还在UERANSIM上开发了一套自定义的“基于活动的移动模型”，模拟的用户设备能够像真实人类一样行动——早上去上班、中午去餐厅、晚上去健身房，不同时间前往不同地点的概率各不相同，从而触发真实的注册、注销和切换事件。

第三部分就是核心创新——NWDAF本身，以及集成于其中的大语言模型接口。

**三、NWDAF内部是如何运转的？**

研究团队的NWDAF架构可以用一个“智能秘书”来理解。这位秘书具备几项核心能力。

首先，它会主动订阅信息。NWDAF启动时，先向NRF注册自己，告知整个网络“我在这里，我能提供分析服务”。然后，它读取配置文件，其中列出了需要订阅哪些网络功能的哪些事件，再依次向AMF和SMF发送订阅请求。这个过程完全遵循3GPP标准定义的订阅流程：先向NRF查询目标网络功能的地址，发送包含事件类型和通知回调地址的POST请求，目标网络功能确认后返回一个订阅ID。之后，每当对应事件发生，目标网络功能就会主动向NWDAF的回调地址推送通知，NWDAF确认收到后返回200 OK。取消订阅时，发送一个带有订阅ID的DELETE请求即可。整套流程清晰、标准且可靠。

其次，它会实时收集和存储数据。收到事件通知后，NWDAF会解析数据、格式化后存入数据库，并以Prometheus指标的形式对外暴露。Prometheus是广泛使用的开源监控系统，NWDAF通过它提供实时监控和历史查询能力。研究团队定义了三类核心指标：活跃用户设备数量（Active_UEs）及其持续时长、用户设备位置报告（UE_location_report，包含设备标识符SUPI、当前服务基站ID和跟踪区域码TAC）、以及用户设备注册状态（UE_registration_state，记录每台设备的活跃/非活跃状态变化和持续时长）。

再者，它还具备预测能力。NWDAF不仅能回顾历史，还能展望未来。研究团队在其中集成了机器学习模型，目前已实现的主要预测功能是：预测特定用户设备接下来最有可能切换到哪个基站。这对提前分配资源、减少切换延迟非常有价值。

最后，也是最引人注目的创新，是它具备了“理解自然语言”的能力——也就是大语言模型接口。

**四、“听懂人话”的网络管理：LLM接口是如何工作的？**

在传统的网络管理中，运维人员想知道“现在网络里有多少台设备在线”，必须先知道对应的API接口地址、请求格式、认证方式，还得理解返回数据的结构。这对非专业人员来说，门槛极高。

研究团队集成的LLM接口彻底改变了这一局面。其工作流程用“翻译官+执行者”来形容最为贴切。

当运维人员输入一段自然语言请求，例如“帮我看看今天有多少台设备注册了”，系统首先会用一个语义嵌入模型将这段文字转换成一个高维数字向量。嵌入模型的作用是将语言的“含义”而非表面文字编码进向量中——所以“当前在线设备数量”和“现在有多少UE连接着”这两句话尽管用词不同，但向量会非常相似。

系统维护着一个预定义意图数据库，其中存放了各种典型操作的示例表述，每条示例都标注了它属于哪个意图类别。目前系统支持七个意图类别：AMF订阅、AMF取消订阅、SMF订阅、SMF取消订阅、查询活跃设备数量、查询设备位置报告，以及查询注册状态。数据库为每个类别准备了150条示例表述，共1050条。

获取用户输入的向量后，系统会计算它与数据库中每条示例向量的余弦相似度，找出最相似的那条，从而确定用户意图所属类别。这个过程好比在一本词典中查找含义最接近的词——不是逐字比对，而是比较语义层面的距离。

意图类别确定后，系统进入执行阶段。如果是分析查询类（例如查询活跃设备数量），系统会自动构造对应的PromQL查询语句，提交给Prometheus服务器，获取原始数据。如果是订阅管理类（例如订阅或取消订阅AMF事件），系统则向NWDAF的对应REST端点发送POST请求，携带指定动作的JSON载荷。

获取原始数据或执行结果后，系统会将其以JSON格式，连同原始用户问题和系统提示词一起传给大语言模型，由模型生成自然语言的最终回答。例如，当指标数据返回后，模型可能会回答“目前有52台设备已在所有基站上注册并处于活跃状态”；当订阅操作完成后，模型则会回答“已成功取消对AMF事件通知的订阅”。

这套设计有一个非常关键的优势：它采用基于检索匹配的方式，而不是让大语言模型直接“自由发挥”地理解意图。这避免了大语言模型可能产生的“幻觉”——即模型编造出看似合理但实际上不存在的答案的现象。因为系统只会从预定义的、经过验证的意图类别中进行选择，不会凭空创造新操作。在网络管理这种对准确性要求极高的场景中，这一点尤为重要。

**五、如何模拟真实的人类移动行为？**

为了让NWDAF收集到有意义的真实数据，研究团队需要模拟真实的用户设备移动行为。他们开发的这套基于活动的移动模型，将每台模拟设备都当作一个有生活规律的“虚拟人”来对待。

每个“虚拟人”拥有固定的个人地点（例如家和工作地点）和共享的公共地点（例如公园、咖啡馆、健身房）。一天被划分为五个时间段：早晨、午餐时间、下午、傍晚和夜晚。不同时间段对不同活动类型的偏好不同——早晨更倾向于前往工作地点，傍晚则更倾向于去休闲场所。

当一台设备准备前往下一个目的地时，系统会根据当前时间段的权重向量随机抽取一个活动类型，并对当前活动类型施加一个惩罚权重，以避免来回反复去同一个地方。选定活动类型后，从匹配该类型的地点中选择一个具体目的地，计算行进方向和速度（速度会根据地点类型和时间段进行调整），设备开始移动。到达目的地后，设备会按照该地点特定的停留时间分布随机停留一段时间，然后重新开始选择下一个目的地的过程。

这套模型产生的移动轨迹既具有时间规律性，又具备空间上的真实感，自然会触发大量注册、注销和切换事件，为NWDAF提供了丰富的训练和测试数据。

实验环境中设置了四个虚拟机站（编号30、40、50、60），呈正方形排列，每个基站的模拟覆盖半径为120单位（对应-120 dBm的信号强度阈值）。四台虚拟设备被部署到网络中：其中三台配置为动态接入和离开网络，一台则全程保持连接。

**六、实验跑了两周，数据说明了什么？**

研究团队让这套系统运行了整整两周，收集并分析了大量数据。

在用户活跃度方面，数据显示出非常明显的时间规律，与活动型移动模型的设计完全吻合。连接设备数量在一天中的不同时段有明显波动，在上午11点前后和下午2点到5点之间出现两个高峰期，而凌晨时段则几乎没有活跃设备。单台设备最长连续活跃时长达到了9000秒（约2.5小时），证明系统能够维持长时间的稳定连接。设备活跃状态的平均持续时长在100到102分钟之间，非活跃状态的平均持续时长在37到40分钟之间。

在切换行为方面，数据揭示了一些有趣的规律。切换最频繁的时间集中在中午和傍晚，与高峰活跃时段基本吻合，凌晨时段则最少。有一个基站因为在模拟地图上的位置更接近多个热门地点，其流量和切换次数都显著高于其他基站。某些基站对之间的双向切换非常频繁，这可能说明这两个基站的覆盖区域有较大重叠，或者切换阈值设置得比较敏感。四台设备中，有一台的切换次数明显多于其他三台，反映出其“生活轨迹”跨越了更多基站的覆盖边界。

在系统性能方面，NWDAF表现出极高的效率：处理AMF和SMF的订阅确认只需约10毫秒，接收并处理事件通知的延迟约为109毫秒。更令人印象深刻的是资源占用：NWDAF仅用了0.06%的CPU资源和0.17%的系统内存（约27 MB），几乎是“静音运行”，对核心网络的性能影响可以忽略不计。

**七、机器学习能预测下一次切换吗？**

研究团队用收集到的数据测试了切换预测的可行性。他们选取了四种经典的分类模型：随机森林、梯度提升、K近邻和决策树，让它们学习历史切换数据，然后预测某台设备接下来最可能切换到哪个基站。

输入特征包括设备的订阅者标识（SUPI）、最近两次访问的基站ID、当天所处的时间类别（早晨/午餐/下午/傍晚/夜晚）、当前基站的坐标，以及该设备在当前时间段内访问该基站的历史频次。数据集按70%训练、30%测试的比例分割。

梯度提升模型以80.65%的准确率摘得最高分，随机森林以80.24%紧随其后，决策树和K近邻分别达到80.11%和79.03%。四个模型的表现相当接近，都在80%左右，说明数据本身具有很强的可预测性。研究团队也指出，这四种模型都具有较强的鲁棒性，不容易因训练数据的质量波动而出现大幅偏差。

80%的准确率意味着什么？在只有4个基站的简单场景里，随机猜测的准确率是25%，而这些模型达到了80%，说明移动模型产生的轨迹具有明显的规律性，完全能被机器学习捕捉和利用。当然，研究团队也坦承，目前的测试环境比较简单，在更复杂的真实网络中表现如何，还需要进一步验证。

**八、“听懂人话”的能力究竟有多强？**

研究团队为LLM接口的意图分类能力进行了系统性评估。他们构建了一个包含700条测试提示词的数据集，按七个意图类别平均分配，每类100条。测试了四个模型：两个大语言模型（GPT-4o和GPT-4o-mini）和两个语义嵌入模型（text-embedding-ada-002和all-MiniLM-L6-v2）。

结果相当出人意料。text-embedding-ada-002以98.43%的准确率排名第一，all-MiniLM-L6-v2以96.86%紧随其后，而GPT-4o只有89.5%，GPT-4o-mini更是只有55.1%。

这个结果揭示了一个反直觉的现象：在意图分类这个任务上，专门的语义嵌入模型反而比能写文章、能聊天的大语言模型表现更好。原因在于两者的工作方式不同。嵌入模型专注于把文字转换成能准确捕捉语义的向量，然后通过余弦相似度匹配来找到最接近的预定义意图——这个过程是确定性的，不会生成任何新内容，因此根本不会产生幻觉。而大语言模型在做分类时，是先“理解”再“生成”一个类别标签，这个生成过程引入了不确定性。尤其是GPT-4o-mini这类轻量模型，面对网络管理领域的专业术语和特定格式要求时，很容易产生偏差。

GPT-4o-mini只有55.1%的准确率意味着它几乎只比随机猜测（约14.3%，七选一）好一点点，完全达不到网络管理的精度要求。而98.43%的准确率，意味着每100个操作请求里只有不到2个会被错误分类，在实际应用中已经是相当高的可靠性了。

**九、它能给出有价值的分析回答吗？**

除了分类准确性，研究团队还测试了整个系统端到端的问答质量，选取了五个具有代表性的问题进行评估，涵盖切换历史查询、注册状态统计和活跃设备模式分析三类场景。

当被问到“展示SUPI 208930000000001的切换模式”时，系统正确识别了该设备最早和最晚的切换记录、最常驻留的基站（000000060），以及在四个基站之间的切换轨迹，整体描述准确。不过，回答中也包含了少数不必要的修饰性文字，研究团队认为这部分可以精简。

当被问到“2025年3月18日发生了多少次注册状态变化”时，系统正确列出了5条时间戳记录并给出了准确的计数，简洁高效。不过，如果能额外提供与日常平均值的对比，会更有上下文价值。

当被问到“哪个SUPI的状态变化最频繁”时，系统给出了正确答案（SUPI 208930000000003），但描述用了“非常高的计数”这样模糊的表达，而没有给出具体数字。研究团队认为这是一个需要改进的地方——对网络运维来说，精确的数字显然更实用。

当被问到“按时间顺序展示每个SUPI的切换序列”时，系统返回了四台设备完整的、带时间戳的切换序列，内容详尽准确。如果以时间轴表格的形式呈现会更直观。

当被问到“活跃UE的模式是什么”时，系统正确描述了不同时段的活跃设备数量变化规律，指出白天和傍晚高峰、夜间低谷等现象。不过，系统还猜测某些时间段的数据波动“可能是由系统维护或外部因素引起的”——在受控测试环境中这种猜测有点多余。但话说回来，在真实运营网络中，这种推理对故障排查反而很有价值。

**十、这项研究对6G意味着什么？**

说到底，这篇论文做的事不只是造了个好用的工具。它更深层的意义在于，展示了一条通向“AI原生网络”的具体路径。

6G网络面临的挑战远比5G复杂：元宇宙、XR（扩展现实）、大规模物联网、超低延迟实时通信……这些应用场景要求网络不仅能快速传输数据，还必须能够自主理解、预测和响应复杂的网络状态变化。靠人工操作API来管理这样的网络，显然既低效又容易出错。

研究团队已经指明了几个明确的未来方向。一是让LLM接口具备更强的自主性——不只是分类和执行固定操作，而是能根据用户的高层次目标，自动判断需要向哪些网络功能请求哪些补充数据，然后综合各方信息给出更深入的分析和建议。另一个是降低成本——目前的实现调用了OpenAI的商业模型，在实际部署中成本不容忽视。未来可以考虑使用专门针对网络管理场景微调的小型语言模型，或者通过量化、剪枝等技术压缩模型体积，在保持性能的同时降低运行开销。此外，研究团队还提到了一个更远的目标：让系统能够根据用户的自然语言意图，自动生成和调用全新的NWDAF服务功能，不再局限于现有的预定义操作集合——这才是真正意义上的“网络自编程”。

归根结底，这项研究证明了：让网络“听懂人话”不是遥不可及的梦想，而是现在就能动手实现的工程目标。每一项复杂的网络操作，背后都有一个可以被语义捕捉的意图，而那个意图，完全能被设计精良的AI系统准确理解并可靠执行。当这种能力在6G时代成熟落地时，网络管理将真正从一门需要专业训练的技艺，变成任何人都能参与的日常对话。

有兴趣深入了解技术细节的朋友，可以通过arXiv编号2606.11877查询完整原文。研究团队也在论文中提供的GitHub仓库（https://github.com/HenokDanielbfg/testbed）开放了全部源代码和实验数据集，可供直接参考和二次开发。

Q&A

Q1：NWDAF是什么，它在5G网络中起什么作用？

A：NWDAF是5G核心网络中专门负责数据分析的功能模块，全称是“网络数据分析功能”。它的工作是从AMF、SMF等其他网络功能模块那里订阅并收集事件数据，比如设备注册、切换、会话建立等，然后对这些数据进行分析和预测，为网络的智能管理提供支撑。可以将其理解为5G网络的“数据分析部门”，专门将散落在各处的网络事件汇聚成有价值的洞察。

Q2：为什么在NWDAF中用嵌入模型做意图分类，比直接用GPT效果更好？

A：这是因为两者的工作方式本质不同。嵌入模型将文字转换成语义向量，然后通过数学上的余弦相似度匹配最接近的预定义意图，整个过程是确定性的，不会凭空生成新内容，因此不会产生“幻觉”。而GPT这类生成式模型在做分类时，是先“理解”再“生成”一个答案，这个生成过程引入了不确定性，在专业术语密集的网络管理场景中更容易出现偏差。实验中GPT-4o-mini的准确率只有55.1%，而text-embedding-ada-002达到了98.43%，差距非常明显。

Q3：基于活动的移动模型和普通随机移动模型相比，有什么优势？

A：普通的随机移动模型让设备毫无规律地随机移动，产生的轨迹与真实用户行为差异很大，触发的网络事件也缺乏时间规律性。基于活动的移动模型则模拟了真实人类的日常行为模式：不同时间段偏好不同类型的地点，拥有个人专属地点也有共享公共地点，还会避免来回反复去同一个地方。这种模型产生的数据更接近真实网络中的流量特征，使得NWDAF收集到的数据能够反映真实的时间规律，机器学习模型在这类数据上训练出的切换预测准确率也因此达到了80%以上。

来源：https://www.163.com/dy/article/L02DBJUM0511DTVV.html

哈利