Falcon 180B开源模型将如何改变行业竞争格局

首页

热心网友

转载

2026-05-16

近日，阿联酋TII研究中心开源的Falcon 180B模型，一经发布便被社区冠以“当前最强开源大模型”的称号。

原极狐GitLab创始人、现OpenCSG创始人陈冉与王伟在模型发布后迅速进行了实测，他们的反馈是“能力很强”。然而，也有不少大模型创业者坦言尚未尝试，原因很直接：推理成本太高，用不起。

从官方评测数据看，Falcon 180B在自然语言任务上的表现确实亮眼。它在Hugging Face开源大模型榜单上以68.74的评分超越了Meta的Llama 2（67.35），位列榜首。在MMLU基准测试中，它超过了Llama 2 70B和OpenAI的GPT-3.5，在HellaSwag、LAMBADA等十余项测评中，其表现与谷歌的PaLM 2-Large不相上下。

一时间，“超越Llama 2”、“优于GPT-3.5”、“接近GPT-4”的赞誉将Falcon 180B推上风口。其背后的TII研究中心位于阿联酋阿布扎比，今年5月底才刚刚开源了该国首个大规模AI模型Falcon 40B，并预告了180B版本的开发。短短四个月后，承诺便已兑现。

从架构上看，Falcon 180B是40B版本的升级，并引入了Multi-Query Attention等创新以提升模型的可扩展性。该系列模型由TII旗下的AI and Digital Science Research Center (AIDRC)团队研发，该团队此前还曾推出全球最大的阿拉伯语NLP模型NOOR。有基金投资人透露，Falcon团队中有部分成员来自阿里巴巴。

一个有趣的现象是，Falcon 180B展现出了超出预期的中文理解能力。当外界猜测这是否是团队有意为之的结果时，Hugging Face中国区负责人王铁震给出了不同的答案：模型作者对此也感到惊讶，他们并未在数据集中刻意添加中文内容，但在训练过程中就已发现模型具备简单的中英文转换能力。

然而，在一片喝彩声中，也夹杂着理性的质疑。英伟达资深研究员Jim Fan公开指出，Falcon-180B的训练数据中代码仅占5%，缺乏强大的代码能力，因此声称“优于GPT-3.5”或“接近GPT-4”可能为时过早。前述基金投资人也持保留态度，认为鉴于该公司过往的宣传风格，Falcon 180B的实际性能或许需要打个八折来看。

与此同时，国内开发者社区的讨论焦点则集中在两个更现实的问题上：第一，在已有Llama 2的情况下，中东“土豪”再推出一个Falcon 180B，意义究竟何在？第二，模型推理成本如此之高，到底有没有实际应用价值？

更进一步，行业也在思考：Llama 2、Falcon 180B这类国际顶尖开源大模型的接连涌现，将对国内大模型创业生态产生何种影响？国内的基础模型厂商将面临怎样的冲击？这又会将国内大模型的开源与闭源之争引向何方？

一些争议

回想年初，ChatGPT的横空出世曾让业界担忧，全球大模型的知识产出是否会就此被OpenAI一家垄断。当时Hugging Face的CEO Clement Delangue曾安抚社区：不必慌张，年底前必定会有超越GPT-3.5的模型出现。如今，Llama 2在7月开源，Falcon 180B在9月跟进，开源社区的任务不仅完成了，还提前了半年。

每一次巨量参数模型的开源，都无异于给社区注入一剂强心针，它壮大了开源阵营的力量，也激发了更多可能性。

面对围绕Falcon 180B的种种争议，王铁震的看法是，首先要看到其开源行为本身的价值。训练一个1800亿参数的模型，耗资必然在千万美元级别，其背后公司愿意将其开源，本身就值得敬佩。在行业仍处于爬坡阶段的当下，各家分享不同的训练思路，对整个行业都是一种宝贵的启发。Falcon 180B就提供了一种新的思路：它主要使用了RefinedWeb数据集（约占85%），并在多达4096个GPU上对3.5万亿个token进行了训练，其训练数据量是Llama 2的近两倍，是目前token数量最多的开源大模型之一。这向行业表明，除了精细清洗数据，单纯扩大高质量数据的规模，也能显著提升模型效果。

关于“推理成本太高，根本用不起”的质疑，王铁震认为，当前阶段，将模型能力推到边界至关重要。只有先知道能力的上限在哪里，开源社区才能群策群力，共同攻克降低推理成本的难题。他给出了一个乐观的预测：大家普遍推测GPT-3.5是一个约1750亿参数规模的模型。因此，理论上OpenAI能做到的推理成本，开源社区同样可以做到，甚至可能更低。一旦像Falcon 180B这样的大模型能将推理成本降至与GPT-3.5相当甚至更低的水平，企业的选择天平自然会向开源模型倾斜。

更令人振奋的是，王铁震透露，开源社区开发者GGML的Georgi Gerganov已经成功将180B模型通过4比特量化压缩，运行在了苹果电脑上。这意味着180B并非遥不可及，个人开发者利用消费级硬件进行大模型探索的未来，或许已经开启。

在另一些观察者看来，Falcon系列似乎意在成为参数、性能与实用易用性均衡的“六边形战士”。此前的Falcon 40B在多项表现上超越了参数更多的LLaMA 65B，且所需显存更低。如果180B版本延续了这一设计思想，其对开发者的长期吸引力不容小觑。

然而，王铁震也表达了一丝忧虑：Falcon 180B已经消耗了3.5万亿个token。如果“堆数据”是当前提升模型效果的有效路径，那么当网络上公开的高质量数据集被消耗殆尽时，模型该如何继续扩展？未来，大模型对高质量数据的争夺势必会更加激烈。

大模型创业者蒋磊则从另一个角度提出了疑问：Falcon 180B的架子（参数量）搭得这么大，却只用了3.5万亿token进行训练？作为对比，Llama 2接受了2万亿token训练，近期发布的Baichuan 2是在2.6万亿token上训练的，而Baichuan 2的参数量仅130亿，不到Falcon 180B的十分之一。因此，蒋磊怀疑Falcon 180B可能像之前的BLOOM模型一样，存在欠拟合的问题。当然，参数增大后带来的思维链（CoT）、涌现等能力，还需要更复杂的实验来验证。

此外，Falcon 180B在中文理解上优于Llama 2，也被认为是其使用了更多token或不同数据源的结果。尽管作者声称未刻意添加中文数据，但王铁震猜测这或许得益于其更大的数据规模或与Llama 2不同的数据构成。值得注意的是，作为一个诞生于中东的模型，Falcon 180B并未将阿拉伯语作为主要甚至次要训练语料，这在蒋磊看来，与当年的BLOOM一样，充满了一种“理想主义的光辉”。

开源大模型带来了怎样的冲击

抛开技术细节的讨论，一个更核心的问题是：Falcon 180B这类顶级开源模型的登场，将对国内大模型赛道产生何种实质性的冲击？

蒋磊认为，Falcon 180B对中国公司的影响有限。因为其主要训练语料是英语、德语、西班牙语和法语，若要增强其中文能力，仍需大量额外工作。即使使用LoRA或QLoRA等高效微调技术，对于小型团队和开源社区而言，扩展其中文能力依然门槛很高。

面壁智能CTO、OpenBMB开源社区发起人曾国洋指出，由于参数量巨大，微调和使用Falcon 180B对于普通开发者及中小企业来说成本高昂。它可能更适合那些有充足资源、想使用大模型的大型厂商。

OpenCSG创始人陈冉与王伟认为，Falcon 180B对国内厂商的短期直接影响不会太剧烈。虽然其规格和评测成绩惊艳，但在不少实际场景中仍有提升空间，微调效果也需要更多验证。中长期来看，它可能会冲击国内流行的“小规格模型开源+大规格模型商用”模式，因为客户多了一个基于强大开源模型进行微调的选择。不过，即便选择在Falcon 180B上微调，企业所需投入的软硬件资源和时间成本依然不菲。

王铁震预测，国内很快就会出现基于Falcon 180B的微调版本。一旦其推理成本能被降至与GPT-3.5相当甚至更低，市场将乐于拥抱它。对于国内生态而言，未来头部几家会坚持从零训练自研模型，而大量其他模型必然基于微调产生。因此，拥有一个更强的开源底座并非坏事。他认为冲击存在，但不大，因为Falcon 180B的中文能力肯定无法与使用海量中文语料训练的国内模型相比。只有当国内出现一个百亿参数级别、并用巨量token训练的开源模型时，大家才会争相使用，从而规避使用国外模型可能涉及的合规风险。

目前，国内开源大模型以智源研究院为首，创业公司如百川、面壁、智谱AI、澜舟科技、深势科技等纷纷跟进。互联网大厂中，目前仅有阿里云开源了通义千问，百度、腾讯、华&为、字节等则选择了闭源路线。

有行业人士指出，Falcon 180B这轮开源，对选择To B和To C不同路径的公司冲击程度不同，对一些以To C为核心的基础大模型创业公司冲击较大。例如，某家采用“开源小模型引流+闭源大模型盈利”策略的公司，其生态位正接连受到Llama 2和Falcon 180B的“降维打击”。

另一个值得玩味的现象是，国内迄今尚未出现一个千亿参数级别的开源大模型。究其原因，在于国内大多数机构和企业将开源视为商业策略的一环，有价值则开，无价值则不开。有魔搭社区的相关人士透露，此前积极贡献开源模型的一家公司，近期开源意愿明显下降，猜测可能与商业化压力有关。毕竟，坚持开源意味着持续的巨大投入，千万乃至上亿的融资在大模型训练面前也烧不了多久。

曾国洋认为，超大规模模型训练需要巨额资金，若没有良好的商业模式支撑，投入难以为继。目前国内外开源大模型都尚未探索出清晰的商业模式，因此国内开源模型的参数规模可能长期停留在百亿级别以内。

当然，也有更尖锐的观点认为，强大开源模型的出现对某些国内基础模型厂商是“致命”的。正如李开复曾警示的，当更强的开源模型出现时，一些厂商可能会发现过去的投入打了水漂，原先训练的模型价值大打折扣。

开源VS闭源

有句俗语恰如其分地形容了闭源与开源的关系：一个人走得更快，一群人走得更远。行业既需要那些集中资源、深耕技术与场景的闭源大模型，也需要那些充满理想主义、推动集体进步的开源大模型。

澜舟科技创始人周明曾表示，创业首先要“活着”。他认为，大模型创业是一场艰难的持久战。对许多创业者而言，经费是生存的关键。随着Llama 2、Falcon 180B等优质开源模型不断涌现，积极拥抱开源，或许是一条更现实的出路。因此，澜舟科技当前的策略是拥抱开源：将开源模型作为L0级基础底座，在其上构建L1通用语言模型、L2行业模型和L3场景模型。

在这股创业潮中，越来越多创业者开始转向拥抱开源。有人形容，这波开源潮就像把“自来水厂”免费接到了家门口。但如果“自来水厂”不愿开闸，惠及范围有限，整个行业的发展速度势必会放缓。因此，开源社区急需来自中国的力量。

然而，在一位业内人士看来，目前国内开源的一些模型，与Llama 2、Falcon 180B还“不在一个竞争层面”，更像是“小玩具”。真正的竞争力，或许要等到千亿参数级别的开源模型出现才能建立。

不过，也无需过于担忧。多位受访者指出，像智源研究院、上海人工智能实验室这类不以模型盈利为首要目标的官方机构，最有动力和意愿去打造更大规模的开源模型。它们没有商业公司迫切的盈利压力，更多是为了推动整个行业的发展。一旦它们准备就绪，国内很有希望出现千亿参数级别的开源大模型，助力国内开源生态突破瓶颈。

展望未来，开源与闭源将长期共存。闭源大模型将由少数在技术、人才和商业上占据绝对优势的超级玩家主导；而开源大模型则将催生出一个更加广泛、百花齐放的生态系统。

陈冉与王伟认为，在国内，闭源大模型必然对具体应用更友好（性能更强、更定制化），而开源大模型则必然对生态建设更友好（降低门槛、促进协作）。

开源与闭源并非对立，而是密不可分。在王铁震看来，开源是闭源发展的“脚底板”，为行业奠定基础、探索方向；闭源则是开源发展的“天花板”，代表着商业化的高度和性能的极致。因为任何闭源模型，无论是从头训练还是基于开源微调，其价值都建立在必须比同时期的开源模型做得更好之上。纵观开源软件历史，取得巨大成功的项目未必是当时技术最领先的，但一定是对开发者和生态建设最友好的。

开源的竞争，本质上是生态的竞争。谁能为开发者提供最友好的工具、最活跃的社区，谁就能吸引最多的开发者，从而像滚雪球一样不断壮大生态。开源的价值在于持续推动行业前进。而当商业公司从中获利后，也可能通过开源模型、贡献数据集等方式反哺社区，形成良性循环。

陈冉与王伟指出，未来开源大模型的竞争，除了模型规格与能力，将更多围绕配套工具链、生态建设、垂直领域能力、安全性与推理性能优化等方面展开。

这也引出了一个现实的无奈。蒋磊曾疑惑，为何至今没有出现基于MoE（混合专家）架构的Llama模型？他曾在相关社区倡议共同构建一个MoE模型，但应者寥寥。这反映出，构建一个大型模型，仍然需要一个中等体量的公司或一个拥有充足赞助、团结一致的开源社区才能完成。

在他看来，国产大模型若真想做好开源，其中必须蕴含一些理想主义。“开源，难道不是互联网最美、最深刻的理想主义么？”

来源:https://www.leiphone.com/category/yanxishe/Xj418NuJ7ok9gPso.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI大模型如何加速科学发现与科研创新下一篇：对话港科大郭毅可提问型AI比复刻ChatGPT更具价值