对话梅涛：对标MJ与SD的AI创业机遇大于扎堆LLM

首页

热心网友

转载

2026-05-15

2002年底，梅涛就加入了微软。他的博士生涯五年，有三年半在这里度过。2006年拿到博士学位后，他选择回到微软亚洲研究院，这一待又是十二年。

用他自己的话说，在微软的十五年，塑造了他对技术的价值观和对公司文化的理解。“第一份工作对一个人的影响，至关重要。”而在京东的五年，则补全了他从技术研发到产业落地的关键拼图，积累了宝贵的实战经验。

春节前提出离开时，梅涛很坦然地对刘强东表达了想法：“待了五年，想出去做点事情。”刘强东对此表示了理解与支持。后来梅涛在给刘强东的信中分享了创业进展，还收到了对方由衷的祝贺。

创业之初，给予梅涛最大支持的，是他的科大校友们。科大人之间“聚是一团火，散是满天星”的联结，在此刻显得尤为真切。

公司第一轮投资，有十五位出资人来自科大校友，他们甚至专门组成了一个有限合伙基金来支持。更令人动容的是，公司会议室的桌椅，都是上一家科大校友企业搬迁时直接捐赠的。

梅涛为人低调，但朋友很多。这些校友在融资、业务拓展、客户对接等方面为他出谋划策，提供了实实在在的帮助。“科大人帮科大人的故事就是这么来的。科大人才密度高，这种互助特别有成效。我非常感激母校。”谈及此，梅涛有些动容。

他心中一直有个梦想：“在中国做一家具有硅谷创新精神的公司。”如今，大模型浪潮奔涌而至，梅涛的创业之路正式启航，他创立了HiDream.ai。他的目标清晰而坚定：在基础模型层面超越Stable Diffusion的最新版本，在产品体验上则要赶超Midjourney。

这或许是国内首家公开喊出对标Stable Diffusion和Midjourney，并真正致力于实现这一目标的公司。

在AIGC的图像生成领域，开源的Stable Diffusion无疑是基础模型的标杆，其生态活力得益于全球开发者的贡献；而在产品端，Midjourney凭借早期建立的社区，积累了独特的用户反馈数据，数据的飞轮已经转动起来，结合高质量数据集，构筑了自身的竞争壁垒。

梅涛的思路很明确：要对标，就对标最好的。这个领域的竞争，眼光要放在全球，直接参与基础模型底层的正面较量。目前，HiDream.ai正在开发一个生成式视觉多模态基础模型，该模型不仅支持文生图，还将支持文生视频、图生视频以及文生3D等功能。

在他看来，必须自主研发多模态基础模型，因为这才是核心壁垒所在。

对标MJ和SD，不在国内卷

问：听说你前段时间在找算力？

梅涛：前段时间确实在为算力奔波，那时比较辛苦。现在这个问题已经解决了，资源已经在使用中。

问：创业目前进行到哪个阶段了？

梅涛：我是春节前两天离开京东，三月初注册了智象未来。我们现在聚焦于AIGC，主要是生成式多模态基础模型及其应用，目标用户是游戏、营销、绘画等领域的设计师。

可以说，我们是一路狂奔。三月注册公司，四月中旬完成首轮融资，五月初核心人员和基础算力就位，六月底数据和模型规模达到了60亿参数。七八月份，我们将发布第一版产品。办公室也从亚运村的一个百平米公寓，搬到了现在的中关村。

问：目前很多创业者选择做应用，为什么你们坚持做基础模型？

梅涛：原因很简单，没有自己的基础模型，就没有核心壁垒。依赖开源模型或调用他人接口，技术命脉就掌握在别人手里。

我们坚持做底层多模态基础模型，但不一定追求参数极大。在视觉生成领域，参数达到100亿就已经非常大了，目前主流模型多在十几亿到二三十亿。我们从五月份开始，八个星期做到了60亿规模，并且已经有一款应用开始内测，计划先在B端客户中推广。

问：在算法层面，目前达到了什么水平？

梅涛：ChatGPT这类大语言模型的天花板很高，能从千亿走向万亿，因为它记忆和存储知识的能力强。而当前视觉模型的天花板相对较低，即使喂入大量数据，参数规模也容易触及瓶颈。

我们现在做的第一件事，是给模型“打补丁”，大幅增强其记忆能力。同时，在编码器、解码器等算法层面进行大量技术改造。如果今天让我去做通用大语言模型，我觉得机会不大，那是大公司的战场。但在视觉多模态基础模型及其应用上，创业公司仍有广阔空间。

问：国内在图片或视频生成领域，大家似乎拉不开太大差距，你为什么觉得还有机会？

梅涛：所以我们不跟国内比，直接对标国外的Midjourney和Stable Diffusion。目前，我们的模型在部分指标上已经超越了Stable Diffusion的最新版本，正在全力追赶Midjourney V5。

虽然起跑晚了一点，但我们反赌。团队目前十一人，堪称一支“足球队”，成员都是“华&为天才少年”级别的选手。我自己在这个领域深耕了十几年。我们勤奋，也有足够的智慧，相信公司会跑得越来越快、越来越稳。

问：国内几乎没人公开说直接对标这两家公司，为什么你们敢？

梅涛：我们既对标Stable Diffusion这样的基础模型，也对标Midjourney这样的现象级应用。我们是国内少数真正愿意并敢于以此为目标的企业，而这个市场空间依然巨大。

首先，Midjourney虽然公司不大，但数据飞轮已经转起来了，形成了行业壁垒。其次，它的文生图主要服务于专业设计师这个小众群体，更多是灵感工具，尚未深度融入核心工作流。

我们的优势在于多模态能力——文生图、文生视频、图生视频、文生3D可以自由切换。公司能力尚未完全释放，但过去两个月的实践表明，在短时间内接近甚至部分超越Midjourney是可行的。我们要对标最好的，而不是关起门来做浅层技术的内卷，一定要走向全球市场。

问：产品计划何时推出？

梅涛：计划在七八月份。目前正在内测，先让B端客户内部的设计师使用，打磨体验，再考虑推向社区。生成式AI产品极度依赖体验，就好比对话，如果ChatGPT是“高中生”，一个低版本模型可能只是“小学生”，用户自然会用脚投票。

所以我们一定要把产品打磨到足够好的程度才公开发布。预计七八月能达到Midjourney V4的水平，赶上V5甚至未来的V6版本，大概要到第四季度。

问：产品会结合Stable Diffusion和Midjourney的特点吗？

梅涛：Stable Diffusion和Midjourney像是两道招牌菜，但并非满汉全席。我们知道什么样的“菜品”需要什么样的“食材”和“烹饪手法”。

Stable Diffusion是开源模型，它在文本和图像开源生态上贡献巨大，但并非专注于在某个垂直领域将产品功能做到极致。Midjourney在数据运营和社区构建上非常出色，模型也训练得很好，但其团队中专注于底层基础算法研究的人才相对较少，从长期看，基础模型的创新竞争力可能面临挑战。

问：做大模型，数据是关键问题，你们如何解决？

梅涛：我们启动比Midjourney晚，它的模型和数据飞轮已经良性运转。我们目前已经积累了超过60亿的数据。

做多模态基础模型，需要精准配对的图片和文本数据，这比语言模型直接从纯文本中做自监督学习要复杂得多。目前，主流开源和闭源模型大多基于约50亿规模的开源数据集。而我们在此基础上，还拥有20多亿的自有数据。所以在数据量上我们并不落后，只是他们的用户反馈循环已经建立。

我们会在垂直领域快速上线，积累自己的原始数据。真正决定大模型能力的，归根结底是数据和算法，因为算力最终会逐渐趋于可得。

AI创业门槛提高，主要看谁的效果好

问：Midjourney使用了大量外包人员，你怎么看这种模式？

梅涛：Midjourney确实有数十名外包或顾问。现在的AI创业，和AI 1.0时代的“四小龙”模式不同。那时做ToB、ToG，商业拓展和搞定客户的能力是关键。

我们不准备完全复制他们的路径。这一波创业，技术门槛被显著抬高，最终是“谁做得好用谁的”。以前可能一个项目十几个供应商投标，比拼的是综合解决方案能力。而现在，更直接地比拼产品体验和生成内容的质量。

问：包括AI四小龙在内的一些公司也开始做大模型，您怎么看？

梅涛：目前很多公司做的还是判别式大模型，而非生成式大模型。这是两种不同的技术路径，虽然可能有互补，但区别很大。

像人脸识别、目标检测属于判别式模型，追求的是准确率。我们做的是纯粹的生成式基础模型，门槛很高。这需要高密度的人才团队，并且深刻理解Transformer架构。因此，真正有能力且决心做生成式基础大模型的公司，目前并不多。

问：判别式和生成式模型的核心区别是什么？

梅涛：它们的底层编码器可能相似，但上层的任务目标完全不同。判别式模型追求高准确率，是一个收敛、判定的过程。生成式模型则追求相关性、创意性和真实感，对绝对准确率容错度更高，本质上是一个发散、创造的过程。

问：以前有过做生成模型的尝试吗？

梅涛：很早就有过想法，但当时没想到真能做出来。我在微软时就做过图生文（图像描述）。2017年左右开始研究文字生成视频、文字生成图片。但那时技术不成熟，生成质量差，可控性低，感觉离产业化很远，就没有继续深入。

如今，大模型技术拐点真正到来。以前可能只能做ToB项目，现在有了做ToC产品的可能。我们之前也尝试过用生成模型做工业残次品检测的案例。

问：你认为工业质检是生成式AI的一个突破口吗？

梅涛：我认为质检不是生成式AI的主战场。创业前我调研过，这个行业天花板有限，市场细分，且定制化程度高，很难突破“通用性”和“标准化”的瓶颈，一些上市公司的毛利率也印证了这一点。

我们的产品场景更聚焦于视觉内容生成本身，比如游戏和电商领域的设计与营销环节。

把技术产品化是“使命感”使然

问：对于未来，你觉得能做到什么程度？

梅涛：模型训练我们会尝试多条技术路径，就像同时放出几匹“马”去赛跑。最终哪匹马能率先到达终点，现在还不确定。如果一条路走不通，我们会快速调整，尝试另一条路。无论是图片还是视频，都是如此。

问：你怎么看待开源？

梅涛：现在开源已成趋势，但真正需要思考的是：如何拥抱开源？如何与开源生态共存？

一个所有人都能参与的开放生态，其广度和迭代速度，是任何单一公司都无法比拟的。所以，无论是创业公司还是大公司，都必须找到与开源社区共同成长的方式。

我们公司计划将一些偏研究性质的算法，以及与核心产品形成差异化的部分进行开源。之前在微软和京东，我们也开源过不少框架，反响不错。

问：国内外对待开源有何不同？

梅涛：国内真正坚持做开源的公司还很少，这是一件很难的事。

首先，国内的开源文化和氛围还需要时间建设。其次，开源有开源的协议规则，使用了开源成果，就应该遵循规则，并回馈社区。我的价值观是：受益于开源，就必须反哺开源，这样才能形成正循环，开源生态才有未来。国内的公司和个人都应该认真思考如何与开源社区健康共存。

问：融资目前进展如何？

梅涛：正在进行第二轮天使轮融资，预计很快会结束。具体细节等到真正交割时会透露，我不喜欢放烟雾弹。

问：人员扩张有什么计划？

梅涛：短期内核心团队会保持在25-30人左右。到明年年底，预计也不会超过50人。我们不是纯ToB的公司，做ToC产品不需要那么庞大的团队。

目前主要缺的是产品经理、工程师和运营人员。尤其是产品经理，必须是一个多元化的复合型人才，方向错了会带偏整个团队。

问：招聘人员有什么标准？

主要看是否有梦想，是否愿意在创业公司拼搏，是否年轻有想法，动手能力强。然后，大家一起全身心投入把事情做成。

问：你平时比较低调、严谨，主要受谁影响？

梅涛：在微软12年，在京东5年，影响都很大。开复、亚勤、宏江、Harry、世鹏、芮勇等，都曾是我的同事或前辈。从微软出来的人，往往带着很强的价值观和使命感。最近和同样在创业的周明老师交流，我们这代人对于将技术产品化、创造社会价值，有一种共同的使命感。而京东的经历，帮我跨越了从技术到产品，再到商业化的鸿沟。

我个人的特点是相信厚积薄发和长期主义。不在于跑得多快，或者有多少人敲锣打鼓，而在于是否有韧性，能否坚持得足够久，这样才能跑得更远。

我看到国外技术迭代速度太快了。如果长期这样下去，差距可能会被拉大。所以，我觉得必须自己出来做点事情。

来源:https://www.leiphone.com/category/ai/vtVyYcF0SZEM2Vux.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。