游乐游手机版
首页/编程语言/文章详情

怎么理解 HashMap 的底层哈希表实现

时间:2026-04-29 20:42
怎么理解 HashMap 的底层哈希表实现 谈到HashMap,很多人知道它快,但快从何来?其底层实现,本质上是用“数组 + 链表 红黑树”这套组合拳,模拟了一张逻辑上的散列表。核心目标非常明确:把任意一个键(Key)快速、准确地映射到一个固定的内存位置,从而实现平均接近 O(1) 的存取效率。这听

怎么理解 HashMap 的底层哈希表实现

怎么理解 HashMap 的底层哈希表实现

谈到HashMap,很多人知道它快,但快从何来?其底层实现,本质上是用“数组 + 链表/红黑树”这套组合拳,模拟了一张逻辑上的散列表。核心目标非常明确:把任意一个键(Key)快速、准确地映射到一个固定的内存位置,从而实现平均接近 O(1) 的存取效率。这听起来简单,背后的设计却充满了权衡与巧思。

数组是主干,“桶”决定落点

一切的基础是一个名为 Node[] table 的数组。你可以把它想象成一排排的“桶(bucket)”。数据并非按顺序存放,而是由键的哈希值来决定它的“家”在哪。举个例子,键 "user123" 经过自身的 hashCode() 方法计算,再经过HashMap内部的扰动函数处理,得到一个最终的哈希值,假设是 1987。接着,用这个值对当前数组长度取模(比如 1987 % 16 = 3),结果 3 就是它的归宿——索引为3的那个桶。这个过程,就是所谓的“哈希函数定位”,是高效访问的起点。

冲突不可避免,链表和红黑树来兜底

理想很丰满,现实却难免碰撞。不同的键完全有可能计算出相同的数组下标,这就是“哈希冲突”。比如 "abc""def" 都落到了索引5的桶里。怎么办?覆盖显然不行。于是,HashMap采用了链式结构:后来的节点就接在已有节点之后,形成一个链表。

  • 在插入方式上,JDK 7采用的是头插法,而JDK 8改为了尾插法。这一改动主要是为了解决并发扩容时可能引发的环形链表问题,提升了稳定性。
  • 那么,链表会不会太长导致查找变慢?当然会。因此,当链表长度增长到 ≥ 8 并且 此时数组的总长度也 ≥ 64 时,链表会自动升级为红黑树。这个数据结构能将查找性能从链表的 O(n) 提升到 O(log n)。
  • 反过来,如果因为删除操作导致树中的节点数减少到 ≤ 6,红黑树又会退化成链表。这避免了在数据量较小时,维护树结构带来的额外开销。

看,这里全是平衡的艺术:在空间、时间和实现复杂度之间寻找最佳实践。

键的比较必须成对重写:hashCode() + equals()

HashMap如何判断两个键是“相同”还是“不同”?这个过程是两步走的严谨校验:

  • 首先比较 hashCode():如果两个键的哈希值不同,那么它们肯定不是同一个键,可以直接放入新的位置或链表末尾。
  • 如果哈希值相等(发生了哈希碰撞),事情就没那么简单了,这时需要请出 equals() 方法进行内容的深度比较:返回 true,则视为重复键,新值会覆盖旧值;返回 false,则视为不同的键,会在链表或树中新增一个节点。

这就引出一个至关重要的实践规则:当你打算用自定义的类对象作为HashMap的键时,必须同时、一致地重写 hashCode() 和 equals() 方法。否则,即使两个对象的内容完全一致,也会因为默认的Object类方法(比较内存地址)而被判定为不同的键,导致数据重复存储,这显然不是我们想要的结果。

扩容不是小事,影响性能的关键环节

HashMap不是一成不变的,它需要成长。初始容量默认是16,加载因子默认是0.75。这意味着,当桶数组中的元素数量达到 容量 × 加载因子(即 16 * 0.75 = 12)时,扩容机制就会触发。

  • 扩容时,会创建一个容量为原来两倍的新数组(例如从16扩大到32)。
  • 接下来是一个相对耗时的操作:遍历旧数组中所有的节点,为每个节点基于新数组长度重新计算哈希和下标,然后将它们迁移到新数组对应的新“桶”中。
  • 这个过程对于链表和红黑树节点同样适用,红黑树在迁移过程中还会进行必要的平衡调整。

正因为扩容涉及大量的数据重新分配,对性能有直接影响,所以如果能在初始化时就预知大致的数据量规模,建议直接指定一个合理的初始容量(例如 new HashMap(1024)),这样可以有效减少后续扩容的次数,提升整体性能。

来源:https://www.php.cn/faq/2391331.html
上一篇怎么利用 String.format() 格式化输出带百分号或千分位的数字字符串 下一篇怎么通过 Collections.unmodifiableCollection() 返回一个受保护的只读数据视图
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
PyTorch中使用多维索引张量对高维张量批量索引的正确方法
编程语言 · 2026-07-03

PyTorch中使用多维索引张量对高维张量批量索引的正确方法

本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B,对形状为 [b, m, n] 的高维张量 A 执行高效批量索引,最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。 很多人处理高维张量的批量索引时都会

Go中...操作符解包切片传递可变参数函数
编程语言 · 2026-07-03

Go中...操作符解包切片传递可变参数函数

在 Go 语言中,` ` 运算符放在切片变量后面(如 `slice `)的作用是将该切片“展开”为多个独立参数,专门用于调用那些接受可变参数(` T`)的函数,例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖,并非省略号或通配符,能够帮助开发者更简洁地处理

macOS与WSL2下PHP多版本切换失效问题排查与修复指南
编程语言 · 2026-07-03

macOS与WSL2下PHP多版本切换失效问题排查与修复指南

本文深入分析在 macOS 或 WSL2(Ubuntu)开发环境中,通过 Homebrew 管理 PHP 多版本时,php -v 始终显示旧版本(如 php@5 6)的深层原因,并给出系统性解决方案,覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。 遇到这种情况的

PHP JSON解析深层嵌套对象属性访问失败的解决方法
编程语言 · 2026-07-03

PHP JSON解析深层嵌套对象属性访问失败的解决方法

使用 json_decode() 解析 API 返回的 JSON 数据时,经常遇到某个子属性无法正常获取,始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失,而是对象嵌套层级比预期更深,导致访问路径不正确。 举例来说,你看到返回的 JSON 里有一个 appea

nnU-Net v2预处理卡死问题的成因分析与实用解决指南
编程语言 · 2026-07-03

nnU-Net v2预处理卡死问题的成因分析与实用解决指南

> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例样本)时,程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞,适当降低并发数即可稳定完成全量预处理。 你在使用 `nnunetv2_plan_and_prepr