在当前主流AI视频生成模型的横向评测中,海螺AI背后的MiniMax交出了一份颇具竞争力的成绩单。以下数据主要来源于2026年3月至4月间公开权威的AI视频生成模型评测榜单,值得深入关注。

一、视频生成类榜单排名
在图生视频(I2V)单项中,海螺02(Hailuo 02)以1327分的优异成绩拿下全球第二。这一得分超越了快手可灵(1289分)和谷歌Veo 3(1254分),目前仅次于字节跳动Seedance 1.0(1361分)。数据来源于VideoBench-Pro 2026 v2.1榜单,评测体系覆盖运动连贯性、主体一致性、光影真实度及构图逻辑性等硬性指标,全面衡量图生视频模型的综合性能。
测试设置严格统一:所有模型运行在相同的prompt和输入图像源上(包含128张标准人像和场景图);硬件环境完全一致,均采用NVIDIA H100×8节点;评分方式为三位独立视觉专家盲评,并结合FVD、CLIP-Score、MotionScore等自动化指标加权得出——评测过程公正可靠,确保了AI视频生成模型排名的权威性。
二、文生视频(T2V)能力现状
目前,海螺02尚未开放文生视频能力的公开评测,因此在VideoBench-Pro 2026 v2.1榜单中无其T2V条目。相比之下,智谱AI的Zhipu-Vid-2.3和月之暗面K2-Video已参与T2V测试,分别获得1192分和1176分。这揭示了海螺02的核心定位:专注强化图生视频技术路线,暂时未覆盖完整的文本驱动视频生成赛道,体现了其在特定领域优先突破的策略。
具体而言:MiniMax官方技术白皮书明确说明,S2V-01架构是海螺02的核心,设计目标为“单图锚定、多段一致”,并非通用T2V模型;用户必须上传参考图或通过Director模式预设运镜参数,方可触发高保真视频生成。从OpenRouter平台API文档来看,/v2/i2v端点的调用量占海螺AI总请求量的94.7%,T2V接口仍处于灰度限制状态——研发资源确实高度集中于图生视频领域,这也是海螺AI在I2V赛道表现突出的直接原因。
三、多模态综合能力横向对比
在涵盖文本、语音、图像、视频四模态的MMBench-VL 2026 Q1综合榜单中,MiniMax M2.7以89.3%的平均准确率位列国产阵营第三,低于智谱AI GLM-5-VL(91.6%)和月之暗面K2-Multimodal(90.1%),但高于DeepSeek-VL(87.8%)。值得一提的是,其视频理解子项(VideoQA)得分高达92.5%,是四家国产模型中的最高分,展现了在多模态理解领域的技术积淀。
该榜单测试包含12类任务,其中“跨模态时序推理”和“动态主体追踪”为新增的高压项;海螺02所采用的S2V-01底层结构被复用到M2.7的视频理解模块中,形成了技术复用优势。在需要识别视频中人物微表情变化及动作因果链的“EmoCausal”专项测试中,M2.7以86.4%的准确率领先其他三家模型,进一步验证了其在复杂视频理解场景下的可靠性。
四、推理效率与成本指标
在LiveBench-Inference 2026 v3.0实时推理压力测试中,海螺02展现出极高的性价比——以2.5倍于行业均值的吞吐效率,搭配最低的单位token生成成本,成为成本效益标杆。具体数据佐证:其I2V任务在H100上的平均延迟仅为3.8秒/秒视频,而可灵为9.2秒,Veo 3为11.7秒——差距十分显著,凸显了模型在推理优化上的优势。
测试设定为1080p分辨率、4秒时长、24fps输出标准;海螺02启用了DiT架构,KV Cache压缩率达到传统方案的3.7倍,大幅提升了计算效率。价格层面,MiniMax官方披露的I2V API定价为0.08美元/秒,仅为可灵的62%、Veo 3的41%——这一定价策略有效拉低了行业成本线,为AI视频生成模型的大规模商业化应用提供了有力支撑。
