怎么理解 HashMap 的底层哈希表实现

时间：2026-04-29 20:42

怎么理解 HashMap 的底层哈希表实现谈到HashMap，很多人知道它快，但快从何来？其底层实现，本质上是用“数组 + 链表红黑树”这套组合拳，模拟了一张逻辑上的散列表。核心目标非常明确：把任意一个键（Key）快速、准确地映射到一个固定的内存位置，从而实现平均接近 O(1) 的存取效率。这听

怎么理解 HashMap 的底层哈希表实现

谈到HashMap，很多人知道它快，但快从何来？其底层实现，本质上是用“数组 + 链表/红黑树”这套组合拳，模拟了一张逻辑上的散列表。核心目标非常明确：把任意一个键（Key）快速、准确地映射到一个固定的内存位置，从而实现平均接近 O(1) 的存取效率。这听起来简单，背后的设计却充满了权衡与巧思。

数组是主干，“桶”决定落点

一切的基础是一个名为 Node[] table 的数组。你可以把它想象成一排排的“桶（bucket）”。数据并非按顺序存放，而是由键的哈希值来决定它的“家”在哪。举个例子，键 "user123" 经过自身的 hashCode() 方法计算，再经过HashMap内部的扰动函数处理，得到一个最终的哈希值，假设是 1987。接着，用这个值对当前数组长度取模（比如 1987 % 16 = 3），结果 3 就是它的归宿——索引为3的那个桶。这个过程，就是所谓的“哈希函数定位”，是高效访问的起点。

冲突不可避免，链表和红黑树来兜底

理想很丰满，现实却难免碰撞。不同的键完全有可能计算出相同的数组下标，这就是“哈希冲突”。比如 "abc" 和 "def" 都落到了索引5的桶里。怎么办？覆盖显然不行。于是，HashMap采用了链式结构：后来的节点就接在已有节点之后，形成一个链表。

在插入方式上，JDK 7采用的是头插法，而JDK 8改为了尾插法。这一改动主要是为了解决并发扩容时可能引发的环形链表问题，提升了稳定性。
那么，链表会不会太长导致查找变慢？当然会。因此，当链表长度增长到 ≥ 8 并且此时数组的总长度也 ≥ 64 时，链表会自动升级为红黑树。这个数据结构能将查找性能从链表的 O(n) 提升到 O(log n)。
反过来，如果因为删除操作导致树中的节点数减少到 ≤ 6，红黑树又会退化成链表。这避免了在数据量较小时，维护树结构带来的额外开销。

看，这里全是平衡的艺术：在空间、时间和实现复杂度之间寻找最佳实践。

键的比较必须成对重写：hashCode() + equals()

HashMap如何判断两个键是“相同”还是“不同”？这个过程是两步走的严谨校验：

首先比较 hashCode()：如果两个键的哈希值不同，那么它们肯定不是同一个键，可以直接放入新的位置或链表末尾。
如果哈希值相等（发生了哈希碰撞），事情就没那么简单了，这时需要请出 equals() 方法进行内容的深度比较：返回 true，则视为重复键，新值会覆盖旧值；返回 false，则视为不同的键，会在链表或树中新增一个节点。

这就引出一个至关重要的实践规则：当你打算用自定义的类对象作为HashMap的键时，必须同时、一致地重写 hashCode() 和 equals() 方法。否则，即使两个对象的内容完全一致，也会因为默认的Object类方法（比较内存地址）而被判定为不同的键，导致数据重复存储，这显然不是我们想要的结果。

扩容不是小事，影响性能的关键环节

HashMap不是一成不变的，它需要成长。初始容量默认是16，加载因子默认是0.75。这意味着，当桶数组中的元素数量达到 容量 × 加载因子（即 16 * 0.75 = 12）时，扩容机制就会触发。

扩容时，会创建一个容量为原来两倍的新数组（例如从16扩大到32）。
接下来是一个相对耗时的操作：遍历旧数组中所有的节点，为每个节点基于新数组长度重新计算哈希和下标，然后将它们迁移到新数组对应的新“桶”中。
这个过程对于链表和红黑树节点同样适用，红黑树在迁移过程中还会进行必要的平衡调整。

正因为扩容涉及大量的数据重新分配，对性能有直接影响，所以如果能在初始化时就预知大致的数据量规模，建议直接指定一个合理的初始容量（例如 new HashMap(1024)），这样可以有效减少后续扩容的次数，提升整体性能。

来源：https://www.php.cn/faq/2391331.html

其他

上一篇怎么利用 String.format() 格式化输出带百分号或千分位的数字字符串 下一篇怎么通过 Collections.unmodifiableCollection() 返回一个受保护的只读数据视图

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

编程语言 · 2026-07-03

PyTorch中使用多维索引张量对高维张量批量索引的正确方法

本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B，对形状为 [b, m, n] 的高维张量 A 执行高效批量索引，最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。很多人处理高维张量的批量索引时都会

编程语言 · 2026-07-03

Go中...操作符解包切片传递可变参数函数

在 Go 语言中，` ` 运算符放在切片变量后面（如 `slice `）的作用是将该切片“展开”为多个独立参数，专门用于调用那些接受可变参数（` T`）的函数，例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖，并非省略号或通配符，能够帮助开发者更简洁地处理

编程语言 · 2026-07-03

macOS与WSL2下PHP多版本切换失效问题排查与修复指南

本文深入分析在 macOS 或 WSL2（Ubuntu）开发环境中，通过 Homebrew 管理 PHP 多版本时，php -v 始终显示旧版本（如 php@5 6）的深层原因，并给出系统性解决方案，覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。遇到这种情况的

编程语言 · 2026-07-03

PHP JSON解析深层嵌套对象属性访问失败的解决方法

使用 json_decode() 解析 API 返回的 JSON 数据时，经常遇到某个子属性无法正常获取，始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失，而是对象嵌套层级比预期更深，导致访问路径不正确。举例来说，你看到返回的 JSON 里有一个 appea

编程语言 · 2026-07-03

nnU-Net v2预处理卡死问题的成因分析与实用解决指南

> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集（例如 704 例样本）时，程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞，适当降低并发数即可稳定完成全量预处理。你在使用 `nnunetv2_plan_and_prepr