DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

首页

热心网友

转载

2026-04-28

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

北京时间今日凌晨，AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新，从已披露的测试结果看，它在GenEval和DPG-Bench基准测试中，已经超越了Stable Diffusion和OpenAI的DALL-E 3。深夜发布，出手就是王炸。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

附上核心资源地址，感兴趣的开发者可以立即上手：

GitHub：点此前往
HuggingFace：点此前往

官方的技术说明，直指其核心创新点。简单来说，Janus-Pro实现了一种创新的自回归框架，目标是把多模态信息的“理解”和“生成”统一起来。关键突破在于，它不再将视觉编码过程视为一个整体，而是聪明地将其拆分成多条独立的路径。这种解耦设计，有效避免了传统框架中视觉编码器在既理解又生成时可能出现的“内部打架”问题，模型的灵活性也因此大增。结果就是，Janus不仅在统一模型中表现出色，即便跟那些专门为某个任务打造的模型相比，也毫不逊色。它简洁、灵活且高效的特点，让人很难不把它看作是下一代统一多模态模型的有力竞争者。

再来看看技术摘要里划出的重点：Janus-Pro本质上是一个统一的多模态大语言模型。它的高效秘诀，正是将视觉编码过程从繁重的多模态理解和生成任务中“解放”出来，实现解耦。这个模型是基于 DeepSeek-LLM-1.5b-base 和 7b-base 版本构建的。具体操作上，在处理多模态理解任务时，它调用SigLIP-L作为视觉编码器，支持最高384 x 384像素的图像输入；而当任务切换到图像生成时，则启用一个来自特定来源的、降采样率为16的分词器。分工明确，各司其职。

Janus-Pro是此前Janus模型的进阶版。那么，进阶在哪儿？主要集中在三个方面：整合了更优的训练策略、扩展了训练数据的规模，并且将模型体量进一步放大。这一系列组合拳打下来，效果立竿见影：Janus-Pro在多模态理解能力和文本到图像的指令跟随能力上取得了显著进步，同时，文本到图像生成的稳定性也得到了切实增强。

更值得玩味的是其背后的JanusFlow架构。官方介绍，这是一种极为简约的设计思路，创新性地将自回归语言模型与校正流——一种当前顶流的生成模型方法——集成在了一起。研究发现，校正流竟然可以直接在大型语言模型的框架内进行训练，无需进行复杂的架构魔改。大量实验数据给出了有力证明：JanusFlow在其涉及的领域内，取得了与专用模型旗鼓相当、甚至更优的性能，并且在标准基准测试中，显著超越了现有的各类统一方法。这无疑标志着，我们向构建更高效、更通用的视觉语言模型，又扎实地迈进了一大步。

来源:https://www.1ai.net/27888.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：出人意料：研究发现对 AI 了解越少的人越愿意使用 AI 下一篇：全球首个港口服务类大模型方舟TaaS 开启公测，支持智能规划路线并估算费用

热门推荐

业界动态

财务系统更换的风险？企业转型的隐形陷阱与应对策略

一、财务系统更换：一场不容有失的“心脏手术” 如果把企业比作一个生命体，那么财务系统就是它的“心脏”。这颗“心脏”一旦老化，更换就成了必须面对的课题。但这绝非一次简单的软件升级，而是一场精密、复杂、牵一发而动全身的“外科手术”。数据显示，超过70%的ERP（企业资源计划）项目实施未能完全达到预期，问

热心网友

04.28

业界动态

模拟人工点击软件有哪些？类型盘点与应用指南

在企业数字化转型的浪潮中，模拟人工点击软件：从效率工具到智能伙伴企业数字化转型的路上，绕不开一个话题：如何把那些重复、枯燥的电脑操作交给机器？模拟人工点击软件，正是因此而成为了提升效率、降低成本的得力助手。那么，市面上的这类软件到底有哪些？答案其实很清晰。它们大致可以归为三类：基础按键脚本、传统R

热心网友

04.28

业界动态

ai智能体发展前景：2026年AI Agent如何重塑全

一、核心结论：AI智能体是通往AGI的必经之路时间来到2026年，AI智能体这个词儿，早就跳出了PPT和实验室的范畴。它不再是飘在天上的技术概念，而是实实在在地成了驱动全球数字化转型的引擎。和那些只能一问一答的传统对话式AI不同，如今的AI智能体（Agent）本事可大多了：它们能自己规划任务步骤、

热心网友

04.28

业界动态

ai智能体主要通过哪一层与外部系统交互：深度解析Agen

一、核心结论：AI智能体交互的“桥梁”是行动层在AI智能体的标准架构里，它与外部系统打交道，关键靠的是“行动层”。可以这么理解：感知层是Agent的五官，决策层是它的大脑，而行动层，就是那双真正去执行和操作的手。这一层专门负责把大脑产出的抽象指令，“翻译”成外部系统能懂的语言，无论是调用一个API

热心网友

04.28

业界动态

ai智能体人设描述怎么写？构建高转化AI角色的深度方法论

一、核心结论：AI人设是智能体的“灵魂” 在构建AI应用时，一个核心问题摆在我们面前：如何写好AI智能体的人设描述？这个问题的答案，直接决定了智能体输出的专业度与用户端的信任感。业界实践表明，一个优秀的人设描述，离不开一个叫做RBGT的模型框架，它涵盖了角色、背景、目标和语气四个黄金维度。有研究数据

热心网友

04.28

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

热门专题

最新APP

热门推荐