首页 游戏 软件 资讯 排行榜 专题
首页
AI
ICLR 2026:浙大哈佛Stroke3D实现2D草图到3D模型一键生成

ICLR 2026:浙大哈佛Stroke3D实现2D草图到3D模型一键生成

热心网友
87
转载
2026-03-03

Stroke3D首次实现了从2D草图和文字描述到可直接动画的3D资产的端到端生成,其“骨架先行”的两阶段范式为解决3D生成中的结构控制问题提供了全新思路。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在3D内容创作领域,传统方法往往受限于专业软件的高门槛和AI生成工具的局限性。然而,浙江大学与哈佛大学的研究团队近期提出的Stroke3D框架,正在引领一场3D创作的新革命!通过简单的2D草图和一句文字描述,Stroke3D就能生成带有完整骨架、纹理清晰、可直接驱动动画的3D网格模型。这一创新不仅大幅降低了3D创作的门槛,更为AR/VR、影视动画和机器人仿真等领域带来了无限可能。

相关链接

论文介绍

绑定3D模型是3D变形和动画的基础。然而,现有的3D生成方法在生成可动画几何体方面面临挑战,而绑定技术又缺乏对骨骼创建的精细结构控制。

为了解决这些局限性,论文提出了一个全新框架Stroke3D,它能够直接从用户输入(2D绘制的笔触和描述性文本提示)生成绑定网格。方法开创了一种两阶段流程,将生成过程分为:可控骨骼生成,采用骨骼图VAE(Sk-VAE)将骨骼的图结构编码到一个潜在空间中,其中骨骼图DiT(Sk-DiT)生成骨骼嵌入。生成过程同时依赖于文本的语义信息和2D笔触的显式结构控制,VAE的解码器重建最终的高质量3D骨骼;通过TextuRig和SKA-DPO增强网格合成,在此基础上合成纹理网格。在此阶段,首先使用TextuRig数据集(一个包含纹理和绑定网格以及说明文字的数据集,来自Objaverse-XL)扩充现有骨骼到网格模型的训练数据,从而增强其性能。此外采用基于骨骼-网格对齐评分的偏好优化策略SKA-DPO,以进一步提高几何保真度。该框架为创建可直接用于动画的3D内容提供了更直观的工作流程。

方法概述

Stroke3D 方法

Stroke3D概述。在训练阶段,Sk-VAE将骨架图编码到潜在空间中。随后,训练Sk-DiT以生成这些潜在嵌入,并以相应的2D笔画和文本提示为条件。使用TextuRig进行训练后,我们利用SKA-DPO,通过骨架网格对齐奖励信号进一步优化SKDream。右侧展示了模型的实现细节。

骨骼生成

将骨架生成结果与RigNet、SKDream、MagicArticulate和UniRig进行了比较。

网格生成

将网格生成结果与SKDream进行比较,并展示了SKA-DPO和TextuRig的消融研究。

TextuRig 数据集

对用于网格生成的TextuRig数据集进行分析。

结论

Stroke3D首次实现了从2D草图和文本到可直接动画的3D资产的端到端生成,其“骨架先行”的两阶段范式为解决3D生成中的结构控制问题提供了新思路。该工作不仅贡献了高质量的TextuRig数据集,还提出了创新的SKA-DPO优化策略,显著提升了生成几何质量。未来,Stroke3D有望在游戏开发、虚拟人创建、影视预可视化等领域发挥巨大作用,让3D创作更接近人类最自然的表达方式——绘画和语言。

来源:https://www.51cto.com/article/837068.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌安卓Emoji迎来3D化升级 约4000个表情重绘更生动
iphone
谷歌安卓Emoji迎来3D化升级 约4000个表情重绘更生动

谷歌正式宣布安卓Emoji将迎来全面3D化升级,新设计命名为Noto3D。此次更新将重绘系统内约4000个表情符号,旨在通过立体感和更丰富的细节,让表情在沟通中传递更鲜活的情感。更新预计于今年晚些时候开始推送,首批适配设备为Pixel手机,随后将扩展至Gboard、YouTube等应用。与此同时,

热心网友
05.13
3D Warehouse-3D Warehouse官网入口网址
AI
3D Warehouse-3D Warehouse官网入口网址

3D Warehouse概述 3D Warehouse是什么 说到3D设计领域的宝藏资源库,Trimble公司旗下的3D Warehouse绝对榜上有名。简单来说,它是一个汇聚了海量3D模型的在线平台。从精致的家具摆件、风格各异的装饰品,到恢弘的建筑单体乃至各类交通工具,几乎你能想到的设计元素,都能

热心网友
05.02
Atlas 3D AI- 基于图像和文本的AI驱动3D模型生成
AI
Atlas 3D AI- 基于图像和文本的AI驱动3D模型生成

想快速将一张图片、一段描述,变成可直接使用的精细3D模型?如今,这不再是耗时数周的复杂工程,而是几分钟内就能搞定的创意流程。这正是前沿生成式3D AI技术——Atlas——所带来的变革。 什么是Atlas? 简单来说,Atlas是一套尖端的生成式3D AI解决方案。它的核心能力在于,仅凭一张参考图像

热心网友
05.01
百度曦灵数字人平台升级 支持文生 3D 数字人、音色克隆等功能
AI
百度曦灵数字人平台升级 支持文生 3D 数字人、音色克隆等功能

百度智能云曦灵数字人平台重大升级:高效低成本生成,全场景矩阵打通 从6月20日开始,百度智能云旗下的曦灵数字人平台,将迎来一次堪称革新的重磅升级。这轮升级带来的变化不小:一方面,它让制作出精美的2D或3D数字人变得高效且成本更低;另一方面,更关键的是,它在直播、短视频、对话等核心应用场景之间,实现了

热心网友
05.01
Drawing with AI and 3D games- 一款儿童专用的AI绘画和3D游戏应用
AI
Drawing with AI and 3D games- 一款儿童专用的AI绘画和3D游戏应用

涂鸦,大概是每个孩子与生俱来的表达方式。线条或许歪歪扭扭,颜色也许天马行空,但在他们眼中,那是一个完整的世界。现在,有一款应用,正试图用科技为这些稚嫩的创作插上翅膀。 什么是Drawing with AI and 3D games? 简单来说,这是一款专为孩子设计的创意应用,其核心亮点在于利用人工智

热心网友
04.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14