游乐游手机版
首页/AI教程/文章详情

CVPR 2026 Oral Texvent文本驱动异步事件数据生成

时间:2026-05-30 13:18
事件相机作为一种仿生视觉传感器,在时间延迟、功耗和动态范围方面显著优于传统相机。这些突出的技术优势,使得基于事件的学习成为计算机视觉领域一个极具潜力的研究方向。然而,大规模事件数据集的采集成本高昂,严重制约了该领域的探索进程。为此,事件模拟技术应运而生,被视为破解数据瓶颈的关键路径。 熟悉事件模拟领

事件相机作为一种仿生视觉传感器,在时间延迟、功耗和动态范围方面显著优于传统相机。这些突出的技术优势,使得基于事件的学习成为计算机视觉领域一个极具潜力的研究方向。然而,大规模事件数据集的采集成本高昂,严重制约了该领域的探索进程。为此,事件模拟技术应运而生,被视为破解数据瓶颈的关键路径。

熟悉事件模拟领域的读者可能注意到,现有方案大多围绕一个核心思路展开——利用视频数据合成新的事件数据。这种思路看似合理,因为连续视频帧能够清晰捕捉像素亮度的细微变化,而亮度变化正是触发事件的前提条件。但在实际应用中,其短板同样明显:视频采集成本居高不下,且在不同视角、运动模式及光照条件下扩展难度极大。为突破这一局限,文本到事件模拟(T2E)的思路被提出——只需输入一句简单的文本提示,即可直接生成事件数据。

不过,当前的T2E方法大多依赖构建庞大的文本-事件对语料库来训练模型,通用性仍然受限。更为理想的方案是无需训练、开箱即用,既能省去昂贵的数据采集成本,又能快速迁移至新领域。这正是香港浸会大学、北京大学与NVIDIA AI Technology Center联合团队的研究动机——他们提出的Texvent框架,正是瞄准这一目标而设计。

\

从文本到事件的“翻译官”

你可能好奇:既然已有视频生成器,再级联一个现成的V2E模拟器是否可行?理论上可行,但实际效果并不理想——存在两个痛点:一是效率低下,帧插值过程中冗余的双向光流估计拖慢运行速度;二是保真度不足,真实事件数据与模拟数据之间的差异建模不对齐,导致下游模型训练时泛化能力大打折扣。

正是为了解决这两大难题,Texvent应运而生。该框架无需任何训练,仅凭文本提示即可完成通用事件模拟,堪称“零样本事件生成”的代表性方案。其架构主要分为两大部分:高帧率视频生成与高效事件模拟。

在高帧率视频生成部分,Texvent采用一种亮度感知插值方法,大幅减少冗余的帧插值操作,显著提升效率。而模拟器部分则通过两个精心设计的机制来增强保真度:平衡对数强度比较策略与基于缓存的电压刷新机制。前者旨在解决低光照与高光照条件下事件激活灵敏度不均衡的问题,后者则致力于减少因频繁参考亮度更新而导致的事件丢失。这样一来,Texvent能够在模拟过程中生成高保真的事件数据,为下游任务提供更可靠的支持。

\

图 1 可视化结果。从左到右依次为:取自 NT-ImageNet 数据集的真实图像-事件对、序列事件流以及Texvent 生成的单帧图像。

方法设计的精妙之处

从细节来看,Texvent的运行流程可拆解为几个关键步骤。首先,多模态大语言模型(MLLM)根据文本提示生成高时间分辨率的视频。随后,亮度感知帧插值进一步提升视频帧率,为后续事件模拟奠定基础。

在事件模拟阶段,团队提出了一种新型事件模拟器。其中,平衡对数强度比较策略巧妙地从对数亮度空间切入,通过对称比较当前亮度与参考亮度,有效校正不同光照条件下的激活灵敏度偏差。而基于缓存的电压刷新机制,则在计算事件帧过程中,专门存储尚未激活事件数据坐标处的亮度值,避免因频繁参考亮度更新而产生不必要的虚假事件。该机制还会定期将缓存重置为初始值,从而防止长期模拟带来的累积误差。

注入背景活动噪声之后,再通过密集时间戳重建优化事件时间分布的稀疏性,最终生成的事件流不仅异步、稀疏,而且具备更平滑的过渡与更丰富的背景细节。

\

图 2 Texvent框架图, 包括高帧率视频生成和事件模拟。

实验数据:全面碾压还是各有千秋?

为验证Texvent的效果,研究团队设计了一系列严格的实验。他们采用经典的视频到事件数据集(ECD与DSEC),并专门构建了一个文本-事件对数据集NT-ImageNet,用于测试T2E场景下的性能。从NT-ImageNet验证集中采样事件流,再使用LLaVA-v1.5-13B生成对应的文本描述,从而实现真实世界事件与文本描述的对齐。

对比方法包括VID2E、V2E、V2CE、DVS-Voltmeter与SENPI等主流方案,视频生成器则选用了Cosmos、Wan、Open-Sora与CogVideoX等多种MLLM。评价策略分为三个层面:帧级评估(利用E2VID、HyperE2VID与ETNet将事件重建为图像,再对比PSNR、SSIM、LPIPS、MSE等指标)、事件级评估(事件质量评分EQS)以及应用级评估(下游任务如目标识别、图像重建、深度估计)。

表1的定量结果充分说明了问题。在事件帧评估中,Texvent在MSE(0.045)与LPIPS(0.339)上表现最佳,SSIM(0.488)也颇具竞争力。在重建图像方面,Texvent同样取得了最高的SSIM(0.472)与最佳的LPIPS(0.296)。唯一温和的挑战来自DVS-Voltmeter,其MSE(0.096)略优于Texvent0.02。总体而言,Texvent不仅事件生成准确,重建图像的质量也保持在高水准。

\

表1定量评估了不同模拟器的事件帧和重建图像。

再看可视化结果,差异更为直观。VID2E与V2E生成的事件稀疏到出现肉眼可见的“空洞”,V2CE与SENPI的问题在于时间分辨率不足,运动过程中事件丢失严重。DVS-Voltmeter的事件分布如同洒落的白噪声,破坏了原有的自然结构。而Texvent生成的事件模式清晰,物体边界完整,事件密度均衡,与真实值(GT)的匹配度相当高。

\

图3:事件帧及其对应的重建图像的可视化结果。

值得一提的是,团队还搭建了一套真实数据采集系统,用于检验Texvent在实际场景中的表现。DAVIS346传感器与RGB摄像头的组合,使得模拟事件与真实事件能够进行直接对比。结果显示,Texvent生成的模拟事件在时间动态与空间分布上与真实数据高度吻合,充分证明了方法的实用性与可靠性。

\

图 4 真实数据和模拟数据的对比。

深度估计的测试结果也进一步验证了Texvent的领先性。与VID2E、V2CE、DVS-Voltmeter等基线方法相比,Texvent生成的校正事件最为锐利、重影最少,深度图平滑流畅且场景结构清晰,远近分离明显。V2CE表现不错但边缘稀疏性稍差;DVS-Voltmeter的深度图则显得粗糙且带有噪声。

图5校正的事件和模拟事件数据的深度图。

总结:一个真正的“即插即用”解决方案

Texvent的核心价值体现在两点:一是无需训练,二是即插即用。它巧妙利用多模态大语言模型打通了从文本到事件的通道,所提出的事件模拟器也能无缝兼容不同的视频生成模型与标准摄像机。此外,团队还贡献了一个新的文本-事件对数据集,为今后的T2E研究提供了标准化的测试基准。从视频到事件的模拟到文本到事件的映射,Texvent在效率、准确性与通用性上均交出了一份亮眼的答卷,这无疑是事件相机生态走向成熟的重要里程碑。

来源:https://cloud.tencent.com.cn/developer/article/2676515
上一篇神经符号集成(Neuro-Symbolic Integration)是什么?AI百科知识详解与案例 下一篇序列建模是什么 AI百科知识科普
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
用AI写作工具高效撰写研究报告的范文与提示词
AI教程 · 2026-05-30

用AI写作工具高效撰写研究报告的范文与提示词

适合需求: 在当前的学术环境中,撰写研究报告几乎是每位研究人员和学生都必须掌握的核心技能。然而,实际动笔时,尤其是面对海量数据和复杂内容,许多人常感到无从下手——思路混乱、框架松散,导致最终报告要么逻辑不清,要么关键细节遗漏。简单来说,想要写出一份既清晰又严谨的研究报告,往往并不轻松。 研究报告并非

大班七色花PPT制作技巧轻松生成趣味教学材料
AI教程 · 2026-05-30

大班七色花PPT制作技巧轻松生成趣味教学材料

使用情景: 在幼儿教育领域,大班教学尤其需要趣味性与直观性。七色花这一主题天然蕴含着童话般的绚丽色彩,是引导孩子们认识色彩、感受自然之美的绝佳媒介。一份精心制作的大班七色花PPT,能够瞬间点亮课堂,牢牢吸引孩子们的注意力,让课堂充满活力。 如今,PPT已成为幼儿教师不可或缺的教学伙伴,无论是课程总结

CS5090EA与PW4253 8.4V升压充电芯片效率温升对比
AI教程 · 2026-05-30

CS5090EA与PW4253 8.4V升压充电芯片效率温升对比

CS5090EA充电芯片对比研究 8 4V 1A 2A 充电测试对比 概述和测试项目 CS5090EA凭借稳定性和性价比,在工程师圈子里一直有不少拥趸。这次我们干脆拉上它的两位竞品——PW4584A和PW4253,做了一次系统性的对比测试。测试围绕8 4V输出条件展开,分1A和2A两档额定负载,

阿里云Token Plan支持的AI模型与版本对照表
AI教程 · 2026-05-30

阿里云Token Plan支持的AI模型与版本对照表

阿里云百炼Token Plan团队版究竟支持哪些主流AI大模型?简单来说,这个预付费套餐覆盖了千问、万相、DeepSeek、月之暗面、智谱AI和MiniMax等多个热门品牌,具体包含Qwen3 7-Max、Qwen3 6-Plus、Qwen3 6-Flash、Qwen-Image-2 0、Qwen-

PW5100 0.7V启动升压芯片 1.5V转3.3V/5V
AI教程 · 2026-05-30

PW5100 0.7V启动升压芯片 1.5V转3.3V/5V

PW5100是一款高效率、低功耗、低纹波、高工作频率的PFM同步升压DC DC变换器。它能够将干电池的低电压稳定升压至3V、3 3V、3 6V或5V输出。支持单节1 5V干电池或两节串联的3V干电池供电,输出电压可选3 3V、3 6V和5V。需要特别注意:PW5100作为升压IC,输入电压必须低于输