首页 游戏 软件 资讯 排行榜 专题
首页
AI
Falcon 180B开源模型将如何改变行业竞争格局

Falcon 180B开源模型将如何改变行业竞争格局

热心网友
19
转载
2026-05-16

近日,阿联酋TII研究中心开源的Falcon 180B模型,一经发布便被社区冠以“当前最强开源大模型”的称号。

原极狐GitLab创始人、现OpenCSG创始人陈冉与王伟在模型发布后迅速进行了实测,他们的反馈是“能力很强”。然而,也有不少大模型创业者坦言尚未尝试,原因很直接:推理成本太高,用不起。

从官方评测数据看,Falcon 180B在自然语言任务上的表现确实亮眼。它在Hugging Face开源大模型榜单上以68.74的评分超越了Meta的Llama 2(67.35),位列榜首。在MMLU基准测试中,它超过了Llama 2 70B和OpenAI的GPT-3.5,在HellaSwag、LAMBADA等十余项测评中,其表现与谷歌的PaLM 2-Large不相上下。

一时间,“超越Llama 2”、“优于GPT-3.5”、“接近GPT-4”的赞誉将Falcon 180B推上风口。其背后的TII研究中心位于阿联酋阿布扎比,今年5月底才刚刚开源了该国首个大规模AI模型Falcon 40B,并预告了180B版本的开发。短短四个月后,承诺便已兑现。

从架构上看,Falcon 180B是40B版本的升级,并引入了Multi-Query Attention等创新以提升模型的可扩展性。该系列模型由TII旗下的AI and Digital Science Research Center (AIDRC)团队研发,该团队此前还曾推出全球最大的阿拉伯语NLP模型NOOR。有基金投资人透露,Falcon团队中有部分成员来自阿里巴巴。

一个有趣的现象是,Falcon 180B展现出了超出预期的中文理解能力。当外界猜测这是否是团队有意为之的结果时,Hugging Face中国区负责人王铁震给出了不同的答案:模型作者对此也感到惊讶,他们并未在数据集中刻意添加中文内容,但在训练过程中就已发现模型具备简单的中英文转换能力。

然而,在一片喝彩声中,也夹杂着理性的质疑。英伟达资深研究员Jim Fan公开指出,Falcon-180B的训练数据中代码仅占5%,缺乏强大的代码能力,因此声称“优于GPT-3.5”或“接近GPT-4”可能为时过早。前述基金投资人也持保留态度,认为鉴于该公司过往的宣传风格,Falcon 180B的实际性能或许需要打个八折来看。

与此同时,国内开发者社区的讨论焦点则集中在两个更现实的问题上:第一,在已有Llama 2的情况下,中东“土豪”再推出一个Falcon 180B,意义究竟何在?第二,模型推理成本如此之高,到底有没有实际应用价值?

更进一步,行业也在思考:Llama 2、Falcon 180B这类国际顶尖开源大模型的接连涌现,将对国内大模型创业生态产生何种影响?国内的基础模型厂商将面临怎样的冲击?这又会将国内大模型的开源与闭源之争引向何方?

一些争议

回想年初,ChatGPT的横空出世曾让业界担忧,全球大模型的知识产出是否会就此被OpenAI一家垄断。当时Hugging Face的CEO Clement Delangue曾安抚社区:不必慌张,年底前必定会有超越GPT-3.5的模型出现。如今,Llama 2在7月开源,Falcon 180B在9月跟进,开源社区的任务不仅完成了,还提前了半年。

每一次巨量参数模型的开源,都无异于给社区注入一剂强心针,它壮大了开源阵营的力量,也激发了更多可能性。

面对围绕Falcon 180B的种种争议,王铁震的看法是,首先要看到其开源行为本身的价值。训练一个1800亿参数的模型,耗资必然在千万美元级别,其背后公司愿意将其开源,本身就值得敬佩。在行业仍处于爬坡阶段的当下,各家分享不同的训练思路,对整个行业都是一种宝贵的启发。Falcon 180B就提供了一种新的思路:它主要使用了RefinedWeb数据集(约占85%),并在多达4096个GPU上对3.5万亿个token进行了训练,其训练数据量是Llama 2的近两倍,是目前token数量最多的开源大模型之一。这向行业表明,除了精细清洗数据,单纯扩大高质量数据的规模,也能显著提升模型效果。

关于“推理成本太高,根本用不起”的质疑,王铁震认为,当前阶段,将模型能力推到边界至关重要。只有先知道能力的上限在哪里,开源社区才能群策群力,共同攻克降低推理成本的难题。他给出了一个乐观的预测:大家普遍推测GPT-3.5是一个约1750亿参数规模的模型。因此,理论上OpenAI能做到的推理成本,开源社区同样可以做到,甚至可能更低。一旦像Falcon 180B这样的大模型能将推理成本降至与GPT-3.5相当甚至更低的水平,企业的选择天平自然会向开源模型倾斜。

更令人振奋的是,王铁震透露,开源社区开发者GGML的Georgi Gerganov已经成功将180B模型通过4比特量化压缩,运行在了苹果电脑上。这意味着180B并非遥不可及,个人开发者利用消费级硬件进行大模型探索的未来,或许已经开启。

在另一些观察者看来,Falcon系列似乎意在成为参数、性能与实用易用性均衡的“六边形战士”。此前的Falcon 40B在多项表现上超越了参数更多的LLaMA 65B,且所需显存更低。如果180B版本延续了这一设计思想,其对开发者的长期吸引力不容小觑。

然而,王铁震也表达了一丝忧虑:Falcon 180B已经消耗了3.5万亿个token。如果“堆数据”是当前提升模型效果的有效路径,那么当网络上公开的高质量数据集被消耗殆尽时,模型该如何继续扩展?未来,大模型对高质量数据的争夺势必会更加激烈。

大模型创业者蒋磊则从另一个角度提出了疑问:Falcon 180B的架子(参数量)搭得这么大,却只用了3.5万亿token进行训练?作为对比,Llama 2接受了2万亿token训练,近期发布的Baichuan 2是在2.6万亿token上训练的,而Baichuan 2的参数量仅130亿,不到Falcon 180B的十分之一。因此,蒋磊怀疑Falcon 180B可能像之前的BLOOM模型一样,存在欠拟合的问题。当然,参数增大后带来的思维链(CoT)、涌现等能力,还需要更复杂的实验来验证。

此外,Falcon 180B在中文理解上优于Llama 2,也被认为是其使用了更多token或不同数据源的结果。尽管作者声称未刻意添加中文数据,但王铁震猜测这或许得益于其更大的数据规模或与Llama 2不同的数据构成。值得注意的是,作为一个诞生于中东的模型,Falcon 180B并未将阿拉伯语作为主要甚至次要训练语料,这在蒋磊看来,与当年的BLOOM一样,充满了一种“理想主义的光辉”。

开源大模型带来了怎样的冲击

抛开技术细节的讨论,一个更核心的问题是:Falcon 180B这类顶级开源模型的登场,将对国内大模型赛道产生何种实质性的冲击?

蒋磊认为,Falcon 180B对中国公司的影响有限。因为其主要训练语料是英语、德语、西班牙语和法语,若要增强其中文能力,仍需大量额外工作。即使使用LoRA或QLoRA等高效微调技术,对于小型团队和开源社区而言,扩展其中文能力依然门槛很高。

面壁智能CTO、OpenBMB开源社区发起人曾国洋指出,由于参数量巨大,微调和使用Falcon 180B对于普通开发者及中小企业来说成本高昂。它可能更适合那些有充足资源、想使用大模型的大型厂商。

OpenCSG创始人陈冉与王伟认为,Falcon 180B对国内厂商的短期直接影响不会太剧烈。虽然其规格和评测成绩惊艳,但在不少实际场景中仍有提升空间,微调效果也需要更多验证。中长期来看,它可能会冲击国内流行的“小规格模型开源+大规格模型商用”模式,因为客户多了一个基于强大开源模型进行微调的选择。不过,即便选择在Falcon 180B上微调,企业所需投入的软硬件资源和时间成本依然不菲。

王铁震预测,国内很快就会出现基于Falcon 180B的微调版本。一旦其推理成本能被降至与GPT-3.5相当甚至更低,市场将乐于拥抱它。对于国内生态而言,未来头部几家会坚持从零训练自研模型,而大量其他模型必然基于微调产生。因此,拥有一个更强的开源底座并非坏事。他认为冲击存在,但不大,因为Falcon 180B的中文能力肯定无法与使用海量中文语料训练的国内模型相比。只有当国内出现一个百亿参数级别、并用巨量token训练的开源模型时,大家才会争相使用,从而规避使用国外模型可能涉及的合规风险。

目前,国内开源大模型以智源研究院为首,创业公司如百川、面壁、智谱AI、澜舟科技、深势科技等纷纷跟进。互联网大厂中,目前仅有阿里云开源了通义千问,百度、腾讯、华&为、字节等则选择了闭源路线。

有行业人士指出,Falcon 180B这轮开源,对选择To B和To C不同路径的公司冲击程度不同,对一些以To C为核心的基础大模型创业公司冲击较大。例如,某家采用“开源小模型引流+闭源大模型盈利”策略的公司,其生态位正接连受到Llama 2和Falcon 180B的“降维打击”。

另一个值得玩味的现象是,国内迄今尚未出现一个千亿参数级别的开源大模型。究其原因,在于国内大多数机构和企业将开源视为商业策略的一环,有价值则开,无价值则不开。有魔搭社区的相关人士透露,此前积极贡献开源模型的一家公司,近期开源意愿明显下降,猜测可能与商业化压力有关。毕竟,坚持开源意味着持续的巨大投入,千万乃至上亿的融资在大模型训练面前也烧不了多久。

曾国洋认为,超大规模模型训练需要巨额资金,若没有良好的商业模式支撑,投入难以为继。目前国内外开源大模型都尚未探索出清晰的商业模式,因此国内开源模型的参数规模可能长期停留在百亿级别以内。

当然,也有更尖锐的观点认为,强大开源模型的出现对某些国内基础模型厂商是“致命”的。正如李开复曾警示的,当更强的开源模型出现时,一些厂商可能会发现过去的投入打了水漂,原先训练的模型价值大打折扣。

开源VS闭源

有句俗语恰如其分地形容了闭源与开源的关系:一个人走得更快,一群人走得更远。行业既需要那些集中资源、深耕技术与场景的闭源大模型,也需要那些充满理想主义、推动集体进步的开源大模型。

澜舟科技创始人周明曾表示,创业首先要“活着”。他认为,大模型创业是一场艰难的持久战。对许多创业者而言,经费是生存的关键。随着Llama 2、Falcon 180B等优质开源模型不断涌现,积极拥抱开源,或许是一条更现实的出路。因此,澜舟科技当前的策略是拥抱开源:将开源模型作为L0级基础底座,在其上构建L1通用语言模型、L2行业模型和L3场景模型。

在这股创业潮中,越来越多创业者开始转向拥抱开源。有人形容,这波开源潮就像把“自来水厂”免费接到了家门口。但如果“自来水厂”不愿开闸,惠及范围有限,整个行业的发展速度势必会放缓。因此,开源社区急需来自中国的力量。

然而,在一位业内人士看来,目前国内开源的一些模型,与Llama 2、Falcon 180B还“不在一个竞争层面”,更像是“小玩具”。真正的竞争力,或许要等到千亿参数级别的开源模型出现才能建立。

不过,也无需过于担忧。多位受访者指出,像智源研究院、上海人工智能实验室这类不以模型盈利为首要目标的官方机构,最有动力和意愿去打造更大规模的开源模型。它们没有商业公司迫切的盈利压力,更多是为了推动整个行业的发展。一旦它们准备就绪,国内很有希望出现千亿参数级别的开源大模型,助力国内开源生态突破瓶颈。

展望未来,开源与闭源将长期共存。闭源大模型将由少数在技术、人才和商业上占据绝对优势的超级玩家主导;而开源大模型则将催生出一个更加广泛、百花齐放的生态系统。

陈冉与王伟认为,在国内,闭源大模型必然对具体应用更友好(性能更强、更定制化),而开源大模型则必然对生态建设更友好(降低门槛、促进协作)。

开源与闭源并非对立,而是密不可分。在王铁震看来,开源是闭源发展的“脚底板”,为行业奠定基础、探索方向;闭源则是开源发展的“天花板”,代表着商业化的高度和性能的极致。因为任何闭源模型,无论是从头训练还是基于开源微调,其价值都建立在必须比同时期的开源模型做得更好之上。纵观开源软件历史,取得巨大成功的项目未必是当时技术最领先的,但一定是对开发者和生态建设最友好的。

开源的竞争,本质上是生态的竞争。谁能为开发者提供最友好的工具、最活跃的社区,谁就能吸引最多的开发者,从而像滚雪球一样不断壮大生态。开源的价值在于持续推动行业前进。而当商业公司从中获利后,也可能通过开源模型、贡献数据集等方式反哺社区,形成良性循环。

陈冉与王伟指出,未来开源大模型的竞争,除了模型规格与能力,将更多围绕配套工具链、生态建设、垂直领域能力、安全性与推理性能优化等方面展开。

这也引出了一个现实的无奈。蒋磊曾疑惑,为何至今没有出现基于MoE(混合专家)架构的Llama模型?他曾在相关社区倡议共同构建一个MoE模型,但应者寥寥。这反映出,构建一个大型模型,仍然需要一个中等体量的公司或一个拥有充足赞助、团结一致的开源社区才能完成。

在他看来,国产大模型若真想做好开源,其中必须蕴含一些理想主义。“开源,难道不是互联网最美、最深刻的理想主义么?”

来源:https://www.leiphone.com/category/yanxishe/Xj418NuJ7ok9gPso.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Falcon 180B开源模型将如何改变行业竞争格局
AI
Falcon 180B开源模型将如何改变行业竞争格局

阿联酋TII开源Falcon180B模型,评测表现超越Llama2等,但因推理成本高、中文能力不足且微调成本高,实际应用及对国内生态冲击有限。其开源行为引发行业对数据消耗与模型欠拟合的思考。未来开源与闭源模型将长期共存,竞争重点在工具链、生态及垂直领域能力。

热心网友
05.16
外媒解析karrigan为何适合加盟Falcons战队
游戏资讯
外媒解析karrigan为何适合加盟Falcons战队

Falcons 此次引入的,是一位真正具备领袖气质、能够带领团队在淘汰赛阶段突破瓶颈的核心指挥官。 karrigan 在 FaZe 的结局,显然并非他理想中的告别方式。事实上,自 Twistzz 和 ropz 以自由身离队后,那支队伍在他麾下逐渐失去凝聚力,局面远未达到理想状态。他后期执掌的阵容,似

热心网友
05.13
Falcons与Spirit夺冠预测:阿斯塔纳赛事信心之战
游戏资讯
Falcons与Spirit夺冠预测:阿斯塔纳赛事信心之战

独联体地区最具分量的年度CS赛事即将拉开战幕,赛前各界的分析与预测已纷至沓来。知名分析师kassad也分享了他对本届赛事的前瞻与独家看法。 纵观整体竞争格局,Falcons与Spirit无疑是本届赛事冠军最有力的争夺者。对于这两支顶尖强队而言,此次比赛至关重要,不仅是检验近期训练成果的试金石,更是为

热心网友
05.12
PGL阿斯塔纳首轮karrigan率Falcons迎战K27
游戏资讯
PGL阿斯塔纳首轮karrigan率Falcons迎战K27

备受瞩目的PGL阿斯塔纳2026线下赛将于5月9日在哈萨克斯坦震撼开启,赛事总奖金池高达160万美元。当战幕拉开,有一支队伍必将成为全场瞩目的焦点——Falcons。这不仅因为传奇指挥karrigan将首次身披Falcons战袍亮相国际赛场,更因为他们首轮便将迎来劲敌K27的强力挑战。 这场揭幕战对

热心网友
05.12
karrigan加盟Falcons将全力以赴 老将决心带队再创佳绩
游戏资讯
karrigan加盟Falcons将全力以赴 老将决心带队再创佳绩

在最新一期的《All About Counter-Strike》电竞播客节目中,主持人BanKs与知名分析师Devilwalk进行了一场深度对谈,话题聚焦于CSGO职业圈内几位关键人物与战队的未来走向。从教练ashhh的职业规划,到BC Game新阵容的困境解析,再到karrigan加盟Falcon

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南
AI
阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

热心网友
05.15
商汤小浣熊智能助手基于自研大语言模型
AI
商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

热心网友
05.15
MiniMax新一代智能模型矩阵全面解析与应用指南
AI
MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

热心网友
05.15
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景
web3.0
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友
05.15
智能客服机器人解决方案:AI客服系统提升企业服务效率
AI
智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友
05.15