对话梅涛:对标MJ与SD的AI创业机遇大于扎堆LLM
2002年底,梅涛就加入了微软。他的博士生涯五年,有三年半在这里度过。2006年拿到博士学位后,他选择回到微软亚洲研究院,这一待又是十二年。
用他自己的话说,在微软的十五年,塑造了他对技术的价值观和对公司文化的理解。“第一份工作对一个人的影响,至关重要。”而在京东的五年,则补全了他从技术研发到产业落地的关键拼图,积累了宝贵的实战经验。
春节前提出离开时,梅涛很坦然地对刘强东表达了想法:“待了五年,想出去做点事情。”刘强东对此表示了理解与支持。后来梅涛在给刘强东的信中分享了创业进展,还收到了对方由衷的祝贺。
创业之初,给予梅涛最大支持的,是他的科大校友们。科大人之间“聚是一团火,散是满天星”的联结,在此刻显得尤为真切。
公司第一轮投资,有十五位出资人来自科大校友,他们甚至专门组成了一个有限合伙基金来支持。更令人动容的是,公司会议室的桌椅,都是上一家科大校友企业搬迁时直接捐赠的。
梅涛为人低调,但朋友很多。这些校友在融资、业务拓展、客户对接等方面为他出谋划策,提供了实实在在的帮助。“科大人帮科大人的故事就是这么来的。科大人才密度高,这种互助特别有成效。我非常感激母校。”谈及此,梅涛有些动容。
他心中一直有个梦想:“在中国做一家具有硅谷创新精神的公司。”如今,大模型浪潮奔涌而至,梅涛的创业之路正式启航,他创立了HiDream.ai。他的目标清晰而坚定:在基础模型层面超越Stable Diffusion的最新版本,在产品体验上则要赶超Midjourney。
这或许是国内首家公开喊出对标Stable Diffusion和Midjourney,并真正致力于实现这一目标的公司。
在AIGC的图像生成领域,开源的Stable Diffusion无疑是基础模型的标杆,其生态活力得益于全球开发者的贡献;而在产品端,Midjourney凭借早期建立的社区,积累了独特的用户反馈数据,数据的飞轮已经转动起来,结合高质量数据集,构筑了自身的竞争壁垒。
梅涛的思路很明确:要对标,就对标最好的。这个领域的竞争,眼光要放在全球,直接参与基础模型底层的正面较量。目前,HiDream.ai正在开发一个生成式视觉多模态基础模型,该模型不仅支持文生图,还将支持文生视频、图生视频以及文生3D等功能。
在他看来,必须自主研发多模态基础模型,因为这才是核心壁垒所在。

对标MJ和SD,不在国内卷
问:听说你前段时间在找算力?
梅涛:前段时间确实在为算力奔波,那时比较辛苦。现在这个问题已经解决了,资源已经在使用中。
问:创业目前进行到哪个阶段了?
梅涛:我是春节前两天离开京东,三月初注册了智象未来。我们现在聚焦于AIGC,主要是生成式多模态基础模型及其应用,目标用户是游戏、营销、绘画等领域的设计师。
可以说,我们是一路狂奔。三月注册公司,四月中旬完成首轮融资,五月初核心人员和基础算力就位,六月底数据和模型规模达到了60亿参数。七八月份,我们将发布第一版产品。办公室也从亚运村的一个百平米公寓,搬到了现在的中关村。
问:目前很多创业者选择做应用,为什么你们坚持做基础模型?
梅涛:原因很简单,没有自己的基础模型,就没有核心壁垒。依赖开源模型或调用他人接口,技术命脉就掌握在别人手里。
我们坚持做底层多模态基础模型,但不一定追求参数极大。在视觉生成领域,参数达到100亿就已经非常大了,目前主流模型多在十几亿到二三十亿。我们从五月份开始,八个星期做到了60亿规模,并且已经有一款应用开始内测,计划先在B端客户中推广。
问:在算法层面,目前达到了什么水平?
梅涛:ChatGPT这类大语言模型的天花板很高,能从千亿走向万亿,因为它记忆和存储知识的能力强。而当前视觉模型的天花板相对较低,即使喂入大量数据,参数规模也容易触及瓶颈。
我们现在做的第一件事,是给模型“打补丁”,大幅增强其记忆能力。同时,在编码器、解码器等算法层面进行大量技术改造。如果今天让我去做通用大语言模型,我觉得机会不大,那是大公司的战场。但在视觉多模态基础模型及其应用上,创业公司仍有广阔空间。
问:国内在图片或视频生成领域,大家似乎拉不开太大差距,你为什么觉得还有机会?
梅涛:所以我们不跟国内比,直接对标国外的Midjourney和Stable Diffusion。目前,我们的模型在部分指标上已经超越了Stable Diffusion的最新版本,正在全力追赶Midjourney V5。
虽然起跑晚了一点,但我们反赌。团队目前十一人,堪称一支“足球队”,成员都是“华&为天才少年”级别的选手。我自己在这个领域深耕了十几年。我们勤奋,也有足够的智慧,相信公司会跑得越来越快、越来越稳。
问:国内几乎没人公开说直接对标这两家公司,为什么你们敢?
梅涛:我们既对标Stable Diffusion这样的基础模型,也对标Midjourney这样的现象级应用。我们是国内少数真正愿意并敢于以此为目标的企业,而这个市场空间依然巨大。
首先,Midjourney虽然公司不大,但数据飞轮已经转起来了,形成了行业壁垒。其次,它的文生图主要服务于专业设计师这个小众群体,更多是灵感工具,尚未深度融入核心工作流。
我们的优势在于多模态能力——文生图、文生视频、图生视频、文生3D可以自由切换。公司能力尚未完全释放,但过去两个月的实践表明,在短时间内接近甚至部分超越Midjourney是可行的。我们要对标最好的,而不是关起门来做浅层技术的内卷,一定要走向全球市场。
问:产品计划何时推出?
梅涛:计划在七八月份。目前正在内测,先让B端客户内部的设计师使用,打磨体验,再考虑推向社区。生成式AI产品极度依赖体验,就好比对话,如果ChatGPT是“高中生”,一个低版本模型可能只是“小学生”,用户自然会用脚投票。
所以我们一定要把产品打磨到足够好的程度才公开发布。预计七八月能达到Midjourney V4的水平,赶上V5甚至未来的V6版本,大概要到第四季度。
问:产品会结合Stable Diffusion和Midjourney的特点吗?
梅涛:Stable Diffusion和Midjourney像是两道招牌菜,但并非满汉全席。我们知道什么样的“菜品”需要什么样的“食材”和“烹饪手法”。
Stable Diffusion是开源模型,它在文本和图像开源生态上贡献巨大,但并非专注于在某个垂直领域将产品功能做到极致。Midjourney在数据运营和社区构建上非常出色,模型也训练得很好,但其团队中专注于底层基础算法研究的人才相对较少,从长期看,基础模型的创新竞争力可能面临挑战。
问:做大模型,数据是关键问题,你们如何解决?
梅涛:我们启动比Midjourney晚,它的模型和数据飞轮已经良性运转。我们目前已经积累了超过60亿的数据。
做多模态基础模型,需要精准配对的图片和文本数据,这比语言模型直接从纯文本中做自监督学习要复杂得多。目前,主流开源和闭源模型大多基于约50亿规模的开源数据集。而我们在此基础上,还拥有20多亿的自有数据。所以在数据量上我们并不落后,只是他们的用户反馈循环已经建立。
我们会在垂直领域快速上线,积累自己的原始数据。真正决定大模型能力的,归根结底是数据和算法,因为算力最终会逐渐趋于可得。
AI创业门槛提高,主要看谁的效果好
问:Midjourney使用了大量外包人员,你怎么看这种模式?
梅涛:Midjourney确实有数十名外包或顾问。现在的AI创业,和AI 1.0时代的“四小龙”模式不同。那时做ToB、ToG,商业拓展和搞定客户的能力是关键。
我们不准备完全复制他们的路径。这一波创业,技术门槛被显著抬高,最终是“谁做得好用谁的”。以前可能一个项目十几个供应商投标,比拼的是综合解决方案能力。而现在,更直接地比拼产品体验和生成内容的质量。
问:包括AI四小龙在内的一些公司也开始做大模型,您怎么看?
梅涛:目前很多公司做的还是判别式大模型,而非生成式大模型。这是两种不同的技术路径,虽然可能有互补,但区别很大。
像人脸识别、目标检测属于判别式模型,追求的是准确率。我们做的是纯粹的生成式基础模型,门槛很高。这需要高密度的人才团队,并且深刻理解Transformer架构。因此,真正有能力且决心做生成式基础大模型的公司,目前并不多。
问:判别式和生成式模型的核心区别是什么?
梅涛:它们的底层编码器可能相似,但上层的任务目标完全不同。判别式模型追求高准确率,是一个收敛、判定的过程。生成式模型则追求相关性、创意性和真实感,对绝对准确率容错度更高,本质上是一个发散、创造的过程。
问:以前有过做生成模型的尝试吗?
梅涛:很早就有过想法,但当时没想到真能做出来。我在微软时就做过图生文(图像描述)。2017年左右开始研究文字生成视频、文字生成图片。但那时技术不成熟,生成质量差,可控性低,感觉离产业化很远,就没有继续深入。
如今,大模型技术拐点真正到来。以前可能只能做ToB项目,现在有了做ToC产品的可能。我们之前也尝试过用生成模型做工业残次品检测的案例。
问:你认为工业质检是生成式AI的一个突破口吗?
梅涛:我认为质检不是生成式AI的主战场。创业前我调研过,这个行业天花板有限,市场细分,且定制化程度高,很难突破“通用性”和“标准化”的瓶颈,一些上市公司的毛利率也印证了这一点。
我们的产品场景更聚焦于视觉内容生成本身,比如游戏和电商领域的设计与营销环节。
把技术产品化是“使命感”使然
问:对于未来,你觉得能做到什么程度?
梅涛:模型训练我们会尝试多条技术路径,就像同时放出几匹“马”去赛跑。最终哪匹马能率先到达终点,现在还不确定。如果一条路走不通,我们会快速调整,尝试另一条路。无论是图片还是视频,都是如此。
问:你怎么看待开源?
梅涛:现在开源已成趋势,但真正需要思考的是:如何拥抱开源?如何与开源生态共存?
一个所有人都能参与的开放生态,其广度和迭代速度,是任何单一公司都无法比拟的。所以,无论是创业公司还是大公司,都必须找到与开源社区共同成长的方式。
我们公司计划将一些偏研究性质的算法,以及与核心产品形成差异化的部分进行开源。之前在微软和京东,我们也开源过不少框架,反响不错。
问:国内外对待开源有何不同?
梅涛:国内真正坚持做开源的公司还很少,这是一件很难的事。
首先,国内的开源文化和氛围还需要时间建设。其次,开源有开源的协议规则,使用了开源成果,就应该遵循规则,并回馈社区。我的价值观是:受益于开源,就必须反哺开源,这样才能形成正循环,开源生态才有未来。国内的公司和个人都应该认真思考如何与开源社区健康共存。
问:融资目前进展如何?
梅涛:正在进行第二轮天使轮融资,预计很快会结束。具体细节等到真正交割时会透露,我不喜欢放烟雾弹。
问:人员扩张有什么计划?
梅涛:短期内核心团队会保持在25-30人左右。到明年年底,预计也不会超过50人。我们不是纯ToB的公司,做ToC产品不需要那么庞大的团队。
目前主要缺的是产品经理、工程师和运营人员。尤其是产品经理,必须是一个多元化的复合型人才,方向错了会带偏整个团队。
问:招聘人员有什么标准?
主要看是否有梦想,是否愿意在创业公司拼搏,是否年轻有想法,动手能力强。然后,大家一起全身心投入把事情做成。
问:你平时比较低调、严谨,主要受谁影响?
梅涛:在微软12年,在京东5年,影响都很大。开复、亚勤、宏江、Harry、世鹏、芮勇等,都曾是我的同事或前辈。从微软出来的人,往往带着很强的价值观和使命感。最近和同样在创业的周明老师交流,我们这代人对于将技术产品化、创造社会价值,有一种共同的使命感。而京东的经历,帮我跨越了从技术到产品,再到商业化的鸿沟。
我个人的特点是相信厚积薄发和长期主义。不在于跑得多快,或者有多少人敲锣打鼓,而在于是否有韧性,能否坚持得足够久,这样才能跑得更远。
我看到国外技术迭代速度太快了。如果长期这样下去,差距可能会被拉大。所以,我觉得必须自己出来做点事情。
热门专题
热门推荐
在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c
登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而
GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。
在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱
宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并





