阿联酋发布Falcon 3：世界最小最强大AI模型_AI热点日报

阿联酋发布Falcon 3：世界最小最强大AI模型

类型：热点整理2026-06-29

阿联酋技术创新研究所（TII）近日重磅发布了Falcon 3系列——一组参数规模在10B以下的轻量级语言模型，却在性能与效率上引发了广泛关注。若你曾留意AI模型“以大取胜”的竞赛热潮，那么这一“小而精”的产品线，或许正揭示了另一条发展路径的兴起。 01 概述大型语言模型近两年的热度已无需赘述。然

阿联酋技术创新研究所（TII）近日重磅发布了Falcon 3系列——一组参数规模在10B以下的轻量级语言模型，却在性能与效率上引发了广泛关注。若你曾留意AI模型“以大取胜”的竞赛热潮，那么这一“小而精”的产品线，或许正揭示了另一条发展路径的兴起。

Falcon 3：阿联酋技术创新研究所推出世界上最小、最强大的人工智能模型

.01 概述

大型语言模型近两年的热度已无需赘述。然而真正值得关注的焦点，并非模型尺寸的无限膨胀，而是如何在更紧凑的体量中注入更强的能力。TII此次推出的Falcon 3系列，正是基于decoder-only架构的紧凑型模型，参数范围从1B到10B。尽管体积小巧，其背后却由14万亿高质量数据、1024块H100 GPU以及一系列硬核优化技术支撑。更关键的是，所有模型均全面开源，诚意十足。

.02 Falcon 3 系列的亮点与演进

Falcon 3并非从零出发的“暗黑森林”，而是对前代Falcon模型的全方位升级——尤其在科学、数学与代码领域进行了重点强化。整个系列包含五款基础模型：Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base以及Falcon3-10B-Base。每一款都承载着独特的训练理念。

关键技术进展可归纳为以下几个方向：

1）大规模预训练：训练Falcon3-7B时，动用了1024颗H100 GPU，数据量高达14万亿个token，覆盖网页、代码及STEM领域内容。这一规模放在一年前，堪称“顶配”级别。

2）模型深度扩展：通过复制冗余层并追加2万亿数据训练，7B模型被“扩展”为10B版本，在零样本与少样本场景中性能均有显著提升。

3）知识蒸馏技术：为打造1B和3B这类超紧凑模型，团队采用了剪枝+蒸馏方法，仅用不到100GB的精选数据便完成了预训练。效率惊人，且效果毫不妥协。

4）强化数学推理能力：Falcon Mamba 7B在原有基础上继续投入1.5万亿高质量数据进行训练，形成了Falcon3-Mamba-7B-Base，在推理与数学任务上表现出色。

5）丰富的模型变体：所有基础模型均提供Instruct、GGUF、GPTQ-Int4、GPTQ-Int8等版本，从部署到微调，总有一款满足你的需求。

.03 性能与评估：Falcon3如何脱颖而出？

光谈参数不够直观，基准测试才是硬道理。Falcon 3系列在小模型与中型模型领域交出的答卷，相当亮眼。

小模型的惊人表现：Falcon3-1B-Base直接超越SmolLM2-1.7B，与gemma-2-2B不相上下；Falcon3-3B-Base更是令人瞩目，性能压过了体型大一倍的Llama-3.1-8B和Minitron-4B-Base。知识蒸馏的威力展现无遗。

中型模型的卓越性能：Falcon3-7B-Base与Qwen2.5-7B基本持平，在数学与推理任务中尤为出彩。而Falcon3-10B-Base，在13B以下模型中堪称“孤独求败”的存在。

Mamba模型的优异表现：Falcon3-Mamba-7B在状态空间语言模型（SSLM）领域继续领跑，支持最长32K上下文，同时保持推理速度，集成友好。

.04 扩展能力：科学、数学与编程的多领域突破

Falcon 3研发的核心，是让模型在严肃任务中同样表现出色。以下数据源自官方基准，值得细读：

数学能力：Falcon3-10B-Base在MATH-Lvl5上得分22.9，GSM8K上83.0，对于10B模型而言已是顶尖水平。
编程能力：MBPP拿到73.8分；其Instruct版本在Multipl-E上得分45.8，代码泛化能力可见一斑。
推理能力：Falcon3-7B和10B在BBH测试中分别取得51.0和59.7，复杂推理任务毫不逊色。
科学知识：MMLU方面，7B-Base得分67.4/39.2（MMLU/MMLU-PRO），10B-Base则跃升至73.1/42.5，专业知识覆盖十分扎实。

.05 技术细节与创新架构

模型架构上，Falcon 3全系列采用decoder-only结构，层数在18到40层之间，激活函数选用SwiGLU。配合FlashAttention-3优化，推理效率相当能打。Falcon3-7B-Base训练数据量最大，概念覆盖范围最广，适合作为通用任务的主力。而Falcon3-Mamba-7B独有64层架构，专为数学与科学场景优化。

上下文长度方面，除1B模型支持8K外，其余模型均支持32K。这对于处理长文档、论文、代码库等任务，意味着门槛大幅降低。

Falcon 3的开放承诺：TII在开源方面始终执着。所有模型均采用Falcon LLM许可证，全球AI社区可自由研究、开发与实验。而且，这远非终点——2025年1月，TII计划推出支持图像、视频及音频的多模态增强版，并公布完整技术报告。

.06 结语

Falcon 3系列的问世，印证了“小模型也能具备大智慧”。它在性能、效率与灵活性之间实现了不错的平衡，既为研究人员提供了强大的工具，也为行业带来了更开放、更高效的可能性。若你正在寻找一款轻量但能力全面的基础模型，Falcon 3值得纳入你的评估清单。

来源：https://www.53ai.com/news/LargeLanguageModel/2025020152439.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。