首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
大模型参数详解:核心构成与训练关键点解析

大模型参数详解:核心构成与训练关键点解析

热心网友
59
转载
2026-01-08


(来源:麻省理工科技评论)

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。

写这篇文章的起因很有趣。听闻我的一位编辑同事在半夜醒来,在笔记本上潦草地写下了一句话:“什么是参数?”凌晨四点产生的想法通常不太靠谱,但这却是一个非常好的问题——它直击了大语言模型运作原理的核心。

大语言模型的参数通常被比作控制模型行为的刻度盘和操纵杆。你可以试着想象一台行星般大小的弹球机,几十亿个挡板和缓冲器经过精确设置,将球从一端弹射到另一端。而只需要微调这些设置,球的运动轨迹就会发生变化。

OpenAI 于 2020 年发布的 GPT-3 拥有 1750 亿个参数。Google DeepMind 最新的大语言模型 Gemini 3 可能至少拥有一万亿个参数,有人甚至估计这个数字可能高达 7 万亿,但该公司并未透露具体数据。(鉴于目前激烈的竞争环境,AI 公司不再分享关于其模型构建方式的信息。)

尽管模型各异,但参数的基本定义,以及参数如何赋予大语言模型惊人能力的原理是通用的。如果你想知道大语言模型真正运转的机制,想了解那个多彩的弹球机比喻背后到底如何运作,让我们一起来深入探讨。

什么是参数?回想一下中学代数,比如 2a + b。这些字母就是参数:给它们赋值,你就能得到一个结果。在数学或编程中,参数用于设定界限或决定输出。大语言模型内部参数的运作方式与之类似,只是规模大得惊人。

它们的数值是如何确定的?一言以蔽之:算法。当模型开始训练时,每个参数都被设定为一个随机值。随后的训练过程包含一系列迭代计算(称为训练步数),用于更新这些数值。

在训练初期,模型会犯错。训练算法会检查每一个错误,并在模型中进行回溯,微调众多参数的数值。这样一来,下一次出现同样情况时,误差就会减小。这个过程会不断重复,直到模型的行为符合设计者的预期。此时训练停止,模型参数的数值也就此固定下来。

尽管理论上来说很简单,但在实践中,由于大语言模型使用海量数据进行训练,且包含海量参数,训练过程需要极其庞大的步骤和令人咋舌的计算量。

在训练期间,像 GPT-3 这种中等规模的大语言模型,其内部的 1750 亿个参数每一个都会被更新数万次。总计下来,这涉及千万亿次(1 后跟 15 个 0)的独立计算。这也是训练大语言模型消耗如此多能源的原因。这需要数千台专用的高速计算机连续运行数月。

这些参数到底有什么用?大语言模型内部主要有三种类型的参数,它们的数值通过训练来确定:嵌入(Embeddings)、权重(Weights)和偏置(Biases)。让我们逐一了解。



什么是嵌入?

嵌入是单词(或单词的一部分,称为 Token)在大语言模型词表中的数学表示。大语言模型的词表可能包含多达几十万个独立的 Token,这些是由设计者在训练开始前设定的。但此时这些单词没有任何含义。含义是在训练过程中赋予的。

模型训练时,词表中的每个单词都会被分配一个数值。这个数值基于单词在海量训练数据中的出现方式,捕捉该单词相对于所有其他单词的含义。

是的。但情况还要复杂一些。代表每个单词的数值实际上是一串数字列表。列表中的每个数字代表了模型从训练数据中提取出的不同含义侧面。这个数字列表的长度是设计者在训练前指定的另一个参数,其中的每一个数字都在训练过程中经过了微调。一个常见的长度是 4,096。如果一个大语言模型的嵌入长度为 4,096 个数字,我们就说该模型拥有 4,096 个维度。

这个数字看起来可能很奇怪。但大语言模型(像任何在计算机芯片上运行的东西一样)处理 2 的幂次方效率最高——比如 2、4、8、16、32、64 等等。工程师们发现,4,096 这个 2 的幂次方在能力和效率之间达到了最佳平衡点。维度更少的模型能力较弱;维度更多的模型则训练和运行成本过高或速度过慢。

使用更多的数字,大语言模型就能捕捉到非常精细的信息,包括一个单词在不同语境下的用法、它可能包含的微妙含义,以及它与其他单词的关联等等。

今年二月,OpenAI 发布了其迄今为止最大的模型 GPT-4.5(有估算称其参数量超过 10 万亿)。曾参与该模型研发的 OpenAI 研究科学家 Nick Ryder 当时告诉我,更大的模型能够处理额外的信息,比如情绪线索。例如,当说话者的言辞表现出敌意时,他解释道:“人类对话中所有这些微妙的模式,正是这些越来越大的模型能够捕捉到的信息点。”

结果就是,大语言模型内部的所有单词都被编码进了一个高维空间。想象一下,成千上万个单词漂浮在你周围的空中。距离较近的单词具有相似的含义。例如,“桌子”和“椅子”之间的距离,会比它们与“宇航员”的距离更近;而“宇航员”则靠近“月球”和“马斯克”。在遥远的另一端,你可能会看到“变戏法(prestidigitation)”这个词。这与模型内部的情形有点类似,只不过这些单词不是在三维空间中相互关联,而是在 4,096 个维度上相互关联。

这确实让人头晕目眩。实际上,大语言模型将整个互联网压缩成了一个巨大的数学结构,其中编码了海量且互相关联的信息。这也解释了为什么大语言模型能做到惊人的事情,同时也解释了为什么我们无法完全理解它们。



什么是权重?

权重这一参数代表了模型不同部分之间连接的强度。它是调整模型行为最常见的旋钮之一。当大语言模型处理文本时,就会用到权重。

当大语言模型读取一个句子(或一章书)时,它首先会查找所有单词的嵌入,然后将这些嵌入输入到一系列被称为 Transformer 的神经网络中。Transformer 专为一次性处理序列数据(如文本)而设计。句子中的每个单词都会结合其他所有单词的关系进行处理。

这就是权重发挥作用的地方。嵌入代表了一个单词在没有上下文情况下的含义。当一个单词出现在特定句子中时,Transformer 使用权重来处理该单词在这个新语境下的含义。(在实际操作中,这涉及到将每个嵌入与所有其他单词的权重相乘。)



什么是权重?

偏置是另一种类型的调节旋钮,它用于补充权重的作用。权重设定了模型不同部分被激活(从而将数据传递给下一部分)的阈值。偏置则用于调整这些阈值,使得一个嵌入即便数值较低也能触发活动。(偏置是加在嵌入上的数值,而不是与之相乘。)

通过移动模型各部分激活的阈值,偏置让模型能够捕捉到那些原本可能被错过的样信息。想象一下,你试图在嘈杂的房间里听清某人说话。权重会最大程度地放大最大的声音;而偏置则像监听设备上的一个旋钮,可以提高混合音效中那些微弱声音的音量。

简单总结一下:权重和偏置是大语言模型从给定文本中尽可能提取信息的两种不同方式。这两种类型的参数在训练过程中都会被反复调整,以确保它们能够有效地完成这项任务。



神经元也是一种参数吗?

不,神经元更多是组织这些数学运算的方式。它们是承载权重和偏置的容器,通过网络路径相互连接。这一切的灵感非常宽泛地来源于动物大脑中的生物神经元,即一个神经元的信号会触发下一个神经元产生新信号,依此类推。

模型中的每个神经元包含一个偏置,以及针对模型每个维度的权重。换句话说,如果一个模型有 4,096 个维度——因此其嵌入是包含 4,096 个数字的列表——那么该模型中的每个神经元将包含一个偏置和 4,096 个权重。

神经元按层排列。在大多数大语言模型中,一层的每个神经元都与上一层的所有神经元相连。像 GPT-3 这样拥有 1750 亿参数的模型大约有 100 层,每层包含数万个神经元。并且,每个神经元同时运行着数万次计算。



这一切是如何运作的?

当大语言模型处理一段文本时,该文本的数值表示会穿过模型的多个层级。在每一层中,嵌入的数值(那串 4,096 个数字)会通过一系列涉及模型权重和偏置(附着在神经元上)的计算进行多次更新,直到到达最后一层。

其核心理念是,输入文本的所有含义、细微差别和上下文,在经历这一系列令人难以置信的计算后,都会被嵌入的最终数值所捕获。随后,该数值被用来计算大语言模型应该输出的下一个单词。

这比听起来要复杂得多,这不足为奇:实际上,模型会针对其词表中的每一个单词,计算它作为下一个词出现的可能性,并对结果进行排序。然后,它会选择排名第一的词。

这个选出的单词会被追加到之前的文本块中,整个过程不断重复,直到大语言模型计算出最可能的下一个词是标志输出结束的信号为止。

大语言模型的设计者还可以指定其他几个参数,称为“超参数”。其中主要包括温度(Temperature)、Top-p 和 Top-k。

温度是一个充当创造力旋钮的参数。它影响模型对下一个单词的选择。我刚才说模型会对词表中的单词进行排序并选择排名第一的那个。但是,利用温度参数可以推动模型去选择概率最高的那个词,使其输出更加符合事实且相关;或者去选择一个概率较低的词,使输出更具惊喜感,减少机械感。

Top-p 和 Top-k 也是控制模型选择下一个单词的旋钮。这两个设置强制模型从一组概率最高的备选词中随机选择一个,而不是直接选择排名第一的词。这些参数影响着模型的表现风格——是古怪且富有创造力,还是可靠但枯燥。



小模型是如何用更少的参数做到这一点的?

这是目前 AI 领域最热门的问题之一。实现这一点的途径有很多。研究人员发现,训练数据的数量起着巨大的作用。首先,你需要确保模型见过了足够多的数据:如果一个大语言模型训练所用的文本太少,它就无法充分利用其所有参数,而一个使用相同数据量训练的小模型可能会超越它。

研究人员发现的另一个技巧是过度训练(指使用远超常规的数据量进行训练)。给模型展示比原先认为必要的更多的数据,似乎能提升其性能。结果是,使用大量数据训练的小模型可以超越使用较少数据训练的大模型。以 Meta 的 Llama 系列模型为例。拥有 700 亿参数的 Llama 2 使用了约 2 万亿个单词的文本进行训练;而拥有 80 亿参数的 Llama 3 则使用了约 15 万亿个单词。体量小得多的 Llama 3 却是更好的模型。

第三种技术被称为蒸馏,即利用一个大模型来训练一个小模型。小模型不仅使用原始训练数据,还利用大模型内部计算的输出进行训练。其思路是,将大模型参数中编码的来之不易的经验“渗透”到小模型的参数中,从而提升小模型的能力。

事实上,单一巨型模型的时代可能已经结束。即便是市场上最大的模型,如 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 3,也可以被看作是“穿在一件风衣里的几个小模型”。通过一种称为“混合专家”(MoE)的技术,大模型可以仅激活处理特定文本所需的那部分(即“专家”)。这种方式结合了大模型的能力与小模型的速度及低功耗优势。

但这还不是全部。研究人员仍在探索如何充分利用模型参数。随着单纯扩大规模带来的收益逐渐递减,增加参数数量似乎不再像以前那样具有决定性作用。参数的数量不再是唯一的决定因素,如何利用这些参数才是关键。


https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/

来源:https://www.163.com/dy/article/KIPEHEVR05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

BCBC币(BCBC)实时行情?
web3.0
BCBC币(BCBC)实时行情?

BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的

热心网友
04.02
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币
web3.0
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币

BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现

热心网友
04.02
openclaw 常见命令解析
AI
openclaw 常见命令解析

OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配

热心网友
04.02
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制
科技数码
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制

一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

洛克王国世界彼得大道蓝水晶点位汇总
游戏攻略
洛克王国世界彼得大道蓝水晶点位汇总

《洛克王国:世界》彼得大道蓝水晶全收集指南 对于《洛克王国:世界》的探险家而言,彼得大道的蓝水晶收集是探索蒸汽朋克街区的重要目标。整个区域总计散落着5颗珍贵的蓝水晶,它们通常隐藏在建筑的窗台边缘、显眼标志物的背面,或是不易察觉的角落中,考验着玩家的观察力。通过下方这张彼得大道地图,你可以快速建立起对

热心网友
04.04
洛克王国世界11个古币兑换机详细攻略
游戏攻略
洛克王国世界11个古币兑换机详细攻略

洛克王国11个古币兑换机终极位置指南与兑换攻略 在《洛克王国》的广阔世界中探索,你是否在世界各地留意到那些造型别致的“古币兑换机”?这正是将你辛苦搜集的古代钱币,转化为海量实用资源与稀有宠物蛋的核心设施。然而,分散各处的11台兑换机具体坐标,常常让玩家耗费大量时间。本文为你带来全网最详细的古币兑换机

热心网友
04.04
三角洲行动2026年3月28日今日摩斯密码分享
游戏攻略
三角洲行动2026年3月28日今日摩斯密码分享

《三角洲行动》2026年3月28日摩斯密码大全及开门位置攻略 在《三角洲行动》这款游戏中,每日更新的密码门是获取额外奖励的关键环节。地图中隐藏的摩斯密码门每天都会变化,玩家需要先精确定位,再输入正确密码才能开启。为了方便各位玩家快速获取2026年3月28日的游戏资源,本文将完整分享今日全部五张热门地

热心网友
04.04
洛克王国世界巨灵石图鉴
游戏攻略
洛克王国世界巨灵石图鉴

洛克王国世界巨灵石图鉴详解 它的磅礴能量,深深根植于脚下无垠的大地。作为洛克王国中最古老的岩石系精灵之一,世界巨灵石不仅精通驾驭土壤与岩石的地系魔法,还拥有一个非常独特的习性——它竟然以土壤和石块作为日常零食。你常常能在野外听见它“嘎嘣嘎嘣”咀嚼岩石的清脆声响,这个趣闻在洛克王国中流传甚广,讲述得活

热心网友
04.04
暗区突围钢铁真理QBZ191终极外观是什么样-暗区突围钢铁真理QBZ191终极外观解析
游戏攻略
暗区突围钢铁真理QBZ191终极外观是什么样-暗区突围钢铁真理QBZ191终极外观解析

外观设计亮点 钢铁真理QBZ191突击步枪,其外观设计堪称视觉与功能的结合典范。枪身采用凌厉的几何线条勾勒,呈现出极具攻击性的战斗姿态。特有的金属质感涂装工艺,使得枪体在不同光照环境下能呈现出富有层次的光影变幻,冷峻的科技美感油然而生。仔细观察,部件接缝处的精密加工与战术防滑刻纹均处理得细致入微,充

热心网友
04.04