第六天学习日志：架构细节到对齐的全面解析

时间：2026-06-18 16:46

Day6 学习日志：从架构细节到对齐日期：2026-03-20定位：在 Day5「参数量账本」的基础上，补全训练与推理阶段的关键机制及偏好对齐链路。一、昨日回顾（Day5 要点）回顾第5天的内容，我们从矩阵维度清晰计算了GPT-3约175B参数的构成，核心要点包括：要点内容配置96层仅有解

Day6 学习日志：从架构细节到对齐

日期：2026-03-20
定位：在 Day5「参数量账本」的基础上，补全训练与推理阶段的关键机制及偏好对齐链路。

一、昨日回顾（Day5 要点）

回顾第5天的内容，我们从矩阵维度清晰计算了GPT-3约175B参数的构成，核心要点包括：

要点	内容
配置	96层仅有解码器模块，96个注意力头
单层公式	参数量约：注意力部分约占1/3，前馈网络约占2/3（先4倍升维再降回原维度）
总量级	单层参数约亿级，乘以96层再加上嵌入层共175B
直觉	注意力机制负责“谁与谁相关”，前馈网络负责“记忆内容”；FP16精度下仅权重就约350GB
顺带	点乘与缩放、Q/K维度对齐、预训练→有监督微调→偏好对齐的典型生命周期

基于这些认知，今天我们将深入更细粒度的工程机制——归一化、缩放策略、词表投影、采样方式，以及对齐后续环节（奖励模型、近端策略优化、直接偏好优化趋势）。

二、今日精读：架构里的「呼吸与温控」

1. Add & Norm：深层网络稳定训练的基石

残差连接（Add）相当于为梯度保留了一条“高速公路”——即便当前子层学习效果不佳，信号仍能直达后方，有效缓解深层梯度消失问题。层归一化（Layer Norm）则将激活值拉回到稳定尺度，避免连续乘积导致数值爆炸或崩塌，使训练过程更加稳健。这一配对常被比喻为Transformer模块的“呼吸与温控”：残差确保通路畅通，归一化维持数值秩序。

2. 缩放因子：Softmax 前的「贫富调节」

点积结果随着维度增大通常会整体偏大，导致Softmax输出极端尖锐（接近one-hot），梯度在少数位置上饱和，模型难以学到“多种合理的关注”。通过除以根号下维度后，点积的尺度被校准到与维度无关的量级，Softmax变得更加平滑，保留了可调空间，相比极端尖峰也更具“创造性”余地。

三、今日精读：模型如何「开口说话」

1. Linear Head：从隐向量到词表映射

模型最后一层输出的是高维语义向量，并非具体的汉字或token。词表投影矩阵（规模庞大，例如GPT-3中与50257个词类对齐）将该向量与全词表的“原型向量”进行匹配，输出每个词的未归一化分数（logits）。

2. 采样策略：同一组 logits，不同的“性格”

Top-K / Top-P 并非永远只选取argmax结果，而是在高分候选集合中再引入随机性，从而生成更丰富多样的文本。Temperature参数控制概率分布的平滑程度：温度越高，分布越平坦，低概率token更容易被采样，输出更发散且富有创意；温度越低，输出越接近“标准答案”。调用API时调整temperature、top_p，本质上就是在操纵这一层概率几何。

四、今日精读：从 SFT 到 PPO（再瞥一眼 DPO）

1. 奖励模型 RM：学会“打分”

在有监督微调模型的骨干上替换或增加头部，利用人类排序（例如回答A优于回答B）进行训练，使优质回答的得分显著高于劣质回答（拉大分数差距）。奖励模型本身不生成文本，仅为策略模型提供标量反馈信号。

2. PPO：带约束的策略更新

核心思路：策略模型（SFT后）在生成过程中“试探”，依据奖励模型的回报调整参数。若本次生成比基线更优，则强化该轨迹；反之则弱化。KL散度惩罚限制了新策略与参考模型（通常是SFT检查点）的偏差，避免为了刷高分而产出怪异、不安全或分布外的文本。PPO效果好但实现复杂、调参困难，工业界许多场景已转向直接偏好优化（DPO）等更简洁的对齐方法。

3. 工程师视角的一句话总结

模型本质上是在高维空间中重排概率分布；参数能稳定训练并能对齐才有实际价值。做应用时，注意力机制的缩放因子、KV缓存技术、上下文长度对延迟和账单的影响，往往比死记硬背公式更为紧迫。

明日预告

开启AI应用实战方向：RAG 架构与 Function Calling 。

来源：https://cloud.tencent.com.cn/developer/article/2691194

其他

上一篇企业AI转型趋势、方法与实施路线图 下一篇Day7从大模型API到能干活四个渐进式实战场景

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网