游乐游手机版
首页/科技数码/文章详情

美团开源LongCat图象模型:专攻中文场景与编辑功能

时间:2025-12-08 13:13
12月8日,美团LongCat团队今日正式发布并开源其图像生成与编辑模型LongCat-Image。该模型参数规模为60亿(6B),最新称其旨在通过一套统一架构处理文本生成图像及自然语言指令编辑任

12月8日,美团LongCat团队正式宣布开源其图像生成与编辑模型LongCat-Image。这款模型拥有60亿参数,其独特之处在于采用了一套统一的架构,能够同时处理文本生成图像和基于自然语言指令进行图像编辑的任务。

模型架构解读

根据介绍,LongCat-Image采用了图文生成与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),并整合了视觉语言模型条件编码器。它的核心技术创新点主要包括:

1. 生成与编辑合二为一:模型不仅能够根据文本提示生成图像,还可以通过自然语言指令对图像进行多轮精细编辑。官方列举了包括对象添加/移除、风格迁移、背景替换、文字修改在内的15类编辑任务,并声称在多轮编辑过程中能有效保持图像风格与光照的一致性。

风格迁移与属性编辑能力对比

2. 强大的中文文本渲染能力:该模型特别强调对中文文本生成的支持,宣称能够准确处理标准汉字、生僻字以及部分书法字体,并能根据场景自动调整字体、大小和排版。在技术实现上,模型通过预训练阶段学习字形轮廓,并在后续训练中引入大量真实世界的文本图像数据,以提升其泛化与应用能力。

文字生成效果对比

3. 高效的输出与优秀质量:通过模型结构轻量化与训练策略优化,该模型宣称可在消费级GPU上实现高效推理,并生成具备“摄影棚级别”丰富细节的高质量图像。

图像生成综合能力对比

在性能评估方面,官方公布了部分基准测试数据:

1. 在图像编辑基准测试GEdit-Bench和ImgEdit-Bench中,LongCat-Image得分分别为中英文综合7.60/7.64分以及专项4.50分,均达到了开源模型中的领先水平。

2. 在中文文本渲染专项测评ChineseWord中,其得分高达90.7分。

3. 在文生图基础能力测试GenEval和DPG-Bench中,其得分分别为0.87和86.8。

目前,该模型已在GitHub平台开源,用户可以通过LongCat APP或网页端(longcat.ai)体验其功能。团队表示,此次开源旨在支持从学术研究到商业应用的全流程探索,并诚挚邀请全球开发者社区参与共建。

此次开源动作,清晰地显示了美团在AIGC领域,尤其是针对中文市场及复杂图像编辑需求的技术布局。开源策略有助于其吸引开发者构建生态,并有望在快速发展的图像生成领域建立重要的影响力。

来源:http://tech.hexun.com/2025-12-08/222687131.html
上一篇义合控股涨超4%携手ABBY Pay,探索AI支付方案 下一篇A股午评:三大股指涨逾1%,沪指创指领涨CPO爆发成交放量
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
加油站卖车 全国首座能源汽车综合服务站落地
科技数码 · 2026-06-04

加油站卖车 全国首座能源汽车综合服务站落地

广汽集团与中国石化在广东湛江遂溪建成全国首座“能源+汽车”综合服务站,推出加油站+汽车销售+维保一体化新模式,填补县域市场跨界空白,构建看车、购车、养车、加油一站式用车服务生态圈。

谷歌被曝研发至少8款Googlebook安卓本 今秋发布
科技数码 · 2026-06-04

谷歌被曝研发至少8款Googlebook安卓本 今秋发布

谷歌正在研发至少8款Googlebook安卓笔记本,计划今年秋季发布。其中4款搭载英特尔PantherLake芯片,3款采用高通骁龙X系列,1款配备联发科迅鲲Ultra芯片并支持可拆卸键盘设计。

巴菲特重仓谷歌而非英伟达的投资逻辑
科技数码 · 2026-06-04

巴菲特重仓谷歌而非英伟达的投资逻辑

伯克希尔·哈撒韦重仓谷歌而非英伟达,因其看好AI基础设施的长期价值。谷歌拥有搜索现金流、云服务和数据中心,商业模式可预测。伯克希尔认为投资“卖铲子的人”更具确定性,而非高风险的AI模型公司。

2026年WWDC最值得关注的升级与实操避坑指南
科技数码 · 2026-06-04

2026年WWDC最值得关注的升级与实操避坑指南

2026年苹果全球开发者大会预计将聚焦于人工智能与操作系统的深度融合。iOS18、iPadOS18等系统或将迎来AI原生体验的全面升级,包括更智能的Siri、系统级AI助手以及开发工具的革新。对于开发者和用户而言,了解新特性适配、隐私数据准备以及测试流程是顺利过渡的关键。

iPhone语音备忘录内置AI转写功能iOS 18起无
科技数码 · 2026-06-04

iPhone语音备忘录内置AI转写功能iOS 18起无

你是否也遇到过这样的场景——会议刚结束、课程刚刚听完、采访也收了尾,手机里却躺着一段十几分钟甚至更长的录音,亟待整理成文字? 原本想着快速转成文本,结果反复暂停、回放、快进,三十分钟的音频硬生生耗了一个多小时才逐字敲完。不少人不得不下载第三方转写工具,到头来却发现——付费门槛才是真正的绊脚石。 其实