人工智能初创公司 Liquid AI 今天宣布了一项重要成果——正式发布并开源了全新的端侧大模型 LFM2.5-8B-A1B。该模型旨在显著提升消费级硬件上的工具调用能力与指令遵循表现,同时将计算成本控制在极低水平。最令人兴奋的是,它在端侧设备的推理性能上实现了肉眼可见的突破与提升。
在架构设计方面,该模型采用了稀疏混合专家(MoE)架构,总参数量达 8.3B,但每次生成一个 Token 仅激活约 1.5B 参数。这意味着什么呢?意味着你的手机、笔记本电脑等消费级设备完全能够承载本地运行,无需依赖云端服务,本地推理速度飞快。

长文本处理能力与推理性能全面升级
相较于前代模型,LFM2.5 的上下文窗口从 32K 直接扩展到 128K 词元,预训练数据量也从 12T 跃升至 38T。作为一款专注于推理的模型,它在输出最终答案之前会先生成显式的思维链,并且具有较高的词表压缩效率,在处理中文、阿拉伯文等九种语言时效率更加出色。
在长推理场景中常见的逻辑死循环和幻觉问题如何解决?开发团队在训练过程中引入了两阶段强化学习(RL)。其中,偏好优化机制专门应对长链路推理中的循环问题,而防幻觉奖励机制则使模型在面对超出知识库范围的问题时,能够主动拒绝回答——这一点对于提升可靠性尤为关键。
端侧性能表现强劲 生态兼容性全面覆盖
在性能表现上,LFM2.5 实现了显著提升。逻辑推理与反幻觉基准测试的得分大幅超越前代模型,甚至在指令遵循能力上可与更大参数的模型相媲美。在工具调用方面,模型默认输出高效的 Python 函数,同时也支持通过系统提示词无缝切换为 JSON 格式。
发布首日便获得了主流推理框架的全面支持:llama.cpp、MLX、vLLM、SGLang 等全部兼容。硬件实测数据同样扎实——在 M5 Max 芯片上解码速度达到每秒 253 字节,在手机上也能达到约每秒 30 字节的解码速度。兼顾端侧运行的隐私保护与高效性能,这一模型表现令人印象深刻。
