首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
美团开源LongCat图象模型:专攻中文场景与编辑功能

美团开源LongCat图象模型:专攻中文场景与编辑功能

热心网友
84
转载
2025-12-08

12月8日,美团LongCat团队正式宣布开源其图像生成与编辑模型LongCat-Image。这款模型拥有60亿参数,其独特之处在于采用了一套统一的架构,能够同时处理文本生成图像和基于自然语言指令进行图像编辑的任务。

模型架构解读

根据介绍,LongCat-Image采用了图文生成与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),并整合了视觉语言模型条件编码器。它的核心技术创新点主要包括:

1. 生成与编辑合二为一:模型不仅能够根据文本提示生成图像,还可以通过自然语言指令对图像进行多轮精细编辑。官方列举了包括对象添加/移除、风格迁移、背景替换、文字修改在内的15类编辑任务,并声称在多轮编辑过程中能有效保持图像风格与光照的一致性。

风格迁移与属性编辑能力对比

2. 强大的中文文本渲染能力:该模型特别强调对中文文本生成的支持,宣称能够准确处理标准汉字、生僻字以及部分书法字体,并能根据场景自动调整字体、大小和排版。在技术实现上,模型通过预训练阶段学习字形轮廓,并在后续训练中引入大量真实世界的文本图像数据,以提升其泛化与应用能力。

文字生成效果对比

3. 高效的输出与优秀质量:通过模型结构轻量化与训练策略优化,该模型宣称可在消费级GPU上实现高效推理,并生成具备“摄影棚级别”丰富细节的高质量图像。

图像生成综合能力对比

在性能评估方面,官方公布了部分基准测试数据:

1. 在图像编辑基准测试GEdit-Bench和ImgEdit-Bench中,LongCat-Image得分分别为中英文综合7.60/7.64分以及专项4.50分,均达到了开源模型中的领先水平。

2. 在中文文本渲染专项测评ChineseWord中,其得分高达90.7分。

3. 在文生图基础能力测试GenEval和DPG-Bench中,其得分分别为0.87和86.8。

目前,该模型已在GitHub平台开源,用户可以通过LongCat APP或网页端(longcat.ai)体验其功能。团队表示,此次开源旨在支持从学术研究到商业应用的全流程探索,并诚挚邀请全球开发者社区参与共建。

此次开源动作,清晰地显示了美团在AIGC领域,尤其是针对中文市场及复杂图像编辑需求的技术布局。开源策略有助于其吸引开发者构建生态,并有望在快速发展的图像生成领域建立重要的影响力。

来源:http://tech.hexun.com/2025-12-08/222687131.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型,Beta 版开放下载
AI
Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型,Beta 版开放下载

Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型,Beta 版开放下载 熟悉创意工具的朋友大概都注意到了,从去年开始,Adobe就在其全线软件产品中,密集地集成各类AI功能。这其中,基于Firefly AI的图像生成能力,已经逐步渗透到Photoshop等C

热心网友
05.02
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑
AI
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑

京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑 4月7日,京东探索研究院正式宣布,开源自研的JoyAI-Image-Edit图像模型。这不仅是又一个开源工具,更标志着图像生成编辑技术的一次关键转向:从二维平面迈入了三维空间。 简单来说,这个模型被设计为业内首个将“空间

热心网友
04.15
MacBook Neo的P3广色域实测:为何难以全覆盖?
礼仪与书信
MacBook Neo的P3广色域实测:为何难以全覆盖?

IT之家 3 月 15 日消息,X 平台博主 @ZONEofTECH 前天发文称,苹果 MacBook Neo 笔记本可以手动切换到 P3 广色域,实际上可以显示 P3 图像。据介绍,MacBook

热心网友
03.15
荣耀Magic V6折叠屏拍摄样张公布:AI影像加持
礼仪与书信
荣耀Magic V6折叠屏拍摄样张公布:AI影像加持

IT之家 2 月 26 日消息,荣耀影像最新微博今日放出了荣耀 Magic V6 折叠屏手机的拍摄样张,新机将延续 AiMAGE 影像能力。IT之家注:去年 3 月,荣耀在 2025 年世界移动通信

热心网友
02.27
Seedream 5.0 Lite发布:实时检索能力提升智能图像创作
AI
Seedream 5.0 Lite发布:实时检索能力提升智能图像创作

2月13日,字节跳动Seed团队推出Seedream 5 0 Lite智能图像创作模型。相比4 0版本,模型在理解、推理和生成方面全面提升。作为通向统一多模态模型的进一步探索,它开始能像人类设计师

热心网友
02.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

英伟达谷歌苹果市值齐创新高 全球上市公司前三强
科技数码
英伟达谷歌苹果市值齐创新高 全球上市公司前三强

当地时间5月13日,美股市场再次上演了“科技股狂欢”。纳斯达克综合指数与标普500指数双双刷新历史纪录,其中纳指大涨1 2%,标普500指数也上扬了0 58%。相比之下,道琼斯工业指数则略显疲态,微跌0 14%。盘面上,大型科技股几乎全线飘红,谷歌母公司Alphabet以近4%的涨幅领跑,Meta、

热心网友
05.15
CHERRY MX 8.3 Pro机械键盘发布 橙黑奢感设计搭载客制化Lumina茶轴
科技数码
CHERRY MX 8.3 Pro机械键盘发布 橙黑奢感设计搭载客制化Lumina茶轴

德国外设品牌CHERRY近期发布了其高端新品——MX 8 3 Pro机械键盘。这款键盘专为客制化爱好者和追求极致品质的用户打造,融合了轻奢美学与硬核性能。目前产品已在各大电商平台正式上架,官方售价为2149元。 MX 8 3 Pro最引人注目的莫过于其鲜明的橙黑撞色设计。键盘机身采用铝合金一体成型工

热心网友
05.15
第六代骁龙8至尊版Pro售价或超300美元 安卓旗舰成本将突破600美元
科技数码
第六代骁龙8至尊版Pro售价或超300美元 安卓旗舰成本将突破600美元

今年,高通将重磅发布其新一代旗舰移动平台——第六代骁龙8至尊版Pro(Snapdragon 8 Elite Gen 6 Pro)。据悉,该芯片有望率先采用台积电前沿的2纳米制程工艺,这不仅是智能手机SoC技术的一次重大飞跃,也预示着旗舰芯片的成本结构可能迎来新一轮调整。行业普遍认为,此次向2nm工艺

热心网友
05.15
AMD发布六款Ryzen PRO 9000系列台式机处理器 首次加入3D V-Cache技术
科技数码
AMD发布六款Ryzen PRO 9000系列台式机处理器 首次加入3D V-Cache技术

AMD推出六款RyzenPRO9000系列商用台式机处理器,首次引入3DV-Cache技术型号。新品分为常规与3D缓存两类,核心数覆盖6至16核,功耗提升至120W或170W以增强性能。该系列集成企业级PRO技术,注重安全与可管理性,但不支持超频等DIY功能,专为追求稳定高效的企业客户设计,预计下半年上市。

热心网友
05.15
小米17 Max本月发布 徕卡2亿像素主摄与8000mAh电池亮相
科技数码
小米17 Max本月发布 徕卡2亿像素主摄与8000mAh电池亮相

小米17Max将于5月21日发布,搭载首款徕卡2亿像素主摄与3倍潜望长焦,配备高通骁龙8至尊版平台。其8000mAh超大电池支持百瓦快充,并采用6 9英寸超级像素屏,通过独立RGB子像素排列实现高精细度与低功耗的显示效果。

热心网友
05.15