一文详解深度学习中的Softmax是什么？原理与应用

时间：2026-06-08 15:43

09aaab-Softmax是什么？这篇文章会把 Softmax 函数彻底讲清楚。从最直观的类比，到严谨的数学定义，再到手算验证、核心性质、数值稳定性问题，最后还会附上 NumPy 和 PyTorch 的代码实现。如果你对 Transformer 里的注意力机制也感兴趣，那 Softmax 在其中

09aaab-Softmax是什么？

这篇文章会把 Softmax 函数彻底讲清楚。从最直观的类比，到严谨的数学定义，再到手算验证、核心性质、数值稳定性问题，最后还会附上 NumPy 和 PyTorch 的代码实现。如果你对 Transformer 里的注意力机制也感兴趣，那 Softmax 在其中扮演的关键角色这里也一并涵盖了。

09aaab-Softmax是什么？

阅读路线图如下：先从直观类比入手理解 Softmax 是什么，然后掌握核心公式并拆解每个部分的作用。接着用手算例子验证公式，再深入了解三大性质，最后攻克数值稳定性问题并看代码实战。

1. 什么是 Softmax？

1.1 直观类比：投票计数器

想象一下班级评选“最受欢迎的同学”。每个同学都可以给其他人打分——分数任意，正数代表喜欢，负数代表讨厌。但最终我们需要的是每个人的“得票百分比”，加起来正好 100%。

Softmax 函数干的活就和这个“投票计数器”差不多：输入是任意实数（同学们的“支持度打分”），输出则是 [0,1] 之间的概率值并且总和为 1（最终的“得票百分比”）。关键的区别在于，Softmax 不是简单按比例缩放，它通过指数函数 $e^{x} e^x$ 放大了输入之间的差异，让得分高的获得更高权重，得分低的则被进一步压制。

1.2 基本定义

Softmax 函数，也叫 softargmax 或归一化指数函数，其作用是把任意实数向量转化为概率分布。给定一个 K 维实数向量 $x = [x_{1}, x_{2}, \dots, x_{K}] mathbf{x} = [x_1, x_2, ldots, x_K]$ ，它对每个元素 $x_{i} x_i$ 的输出为：

softmax (x_{i}) = \frac{e^{x_{i}}}{\sum_{j = 1}^{K} e^{x_{j}}} text{softmax}(x_i) = frac{e^{x_i}}{sum_{j=1}^{K} e^{x_j}}

其中 $e \approx 2.71828 e approx 2.71828$ 是自然对数的底。输出自然满足两个条件，确保它成为一个合法的概率分布：每个值都在 (0,1) 之间，且所有值之和恰好为 1。

2. 核心公式

Softmax 的计算其实就分两步。第一步是“指数化”：对每个输入 $x_{i} x_i$ 计算 $e^{x_{i}} e^{x_i}$ 。第二步是“归一化”：将每个指数值除以所有指数值的总和。

#### 2.1 为什么要用指数函数

e^{x} e^x

来源：https://juejin.cn/post/7644244414396563465

其他

上一篇Claude Code 进阶用法全面高效实战技巧案例深入解析 下一篇超级能力工具结合克劳德代码的初步实战

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指