如何利用 Stream.distinct() 去除集合流中的重复元素
如何利用 Stream.distinct() 去除集合流中的重复元素

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
Stream.distinct() 依赖对象的 equals() 和 hashCode()
这里有个关键点需要先搞清楚:distinct() 并不是对对象进行深度的值比较。它的底层逻辑,其实是调用每个元素的 equals() 和 hashCode() 方法来判断是否重复。这意味着,如果你传入的是自定义对象(比如一个 User 类),但没有重写这两个方法,那么即使两个对象的字段内容完全一样,也会被当作不同的元素保留下来。
- 对于
String、Integer这类 JDK 内置类型,它们已经默认实现了正确的逻辑,可以直接使用。 - 对于自定义类,就必须手动重写
equals()和hashCode(),而且两者的逻辑必须保持一致。 - 如果只重写了
equals()却忘了hashCode(),distinct()的行为可能会失效,或者变得不稳定,这可是个经典的坑。
distinct() 是有状态操作,不能并行流里随意替换顺序
distinct() 在内部使用了一个 LinkedHashSet 来缓存已经遇到过的元素。这个机制带来了两个特点:一是它会保留第一次出现的元素,二是它会尽力维持原始的顺序。然而,一旦进入并行流的世界,情况就变了。所谓的“第一次出现”,完全取决于线程的调度顺序,最终结果的一致性也就无法保证了。
- 串行流:
Stream.of("a", "b", "a").distinct().toList()的结果总是确定的["a", "b"]。 - 并行流:
Stream.of("a", "b", "a").parallel().distinct().toList()的结果就不确定了,可能是["a", "b"],也可能是["b", "a"]。 - 如果业务场景要求并行处理、去重并且还要保持稳定顺序,通常的解决方案是先调用
sorted()排序,或者干脆不使用distinct(),转而采用Collectors.toCollection(LinkedHashSet::new)这类收集器。
distinct() 不适用于按某个字段去重的场景
这是另一个常见的误解。假设你有一个 List,想根据 userId 字段来去重,distinct() 是做不到的——它只能判断整个对象是否相等,无法让你指定按哪个字段去重。
- 错误写法:
users.stream().distinct()。这依赖的是整个User对象的equals()方法,往往不是业务真正需要的语义。 - 正确思路:通常需要借助
Collectors.toMap()或Collectors.collectingAndThen(),配合TreeSet或LinkedHashMap来实现。 - 常用替代方案:
users.stream().collect(Collectors.toMap(User::getId, u -> u, (a, b) -> a)).values()。这个写法清晰表达了“以 id 为键,保留第一个遇到的元素”的意图。
性能和内存开销比想象中大
别小看 distinct() 的开销。因为它需要缓存所有已经遍历过的元素,在最坏的情况下(所有元素都不重复),其内存占用会与输入流的长度成正比。同时,每次遇到新元素都要去哈希表里查询一次,也有计算成本。
- 面对大数据量(比如百万级别)时,这个缓存集合很容易引发内存溢出(OOM),或者显著拖慢整个处理流程的速度。
- 如果去重只是为了统计数量,使用
stream.distinct().count()不如stream.collect(Collectors.toSet()).size()来得清晰,而且后者对中间集合的生命周期有更明确的控制。 - 如果上游数据已经是排序好的,其实可以手动编写逻辑来跳过相邻的重复项(类似于归并排序中的去重思路),从而完全避免额外的集合开销。
话说回来,在实际使用中,不能只满足于“代码能跑通”。重点要审视几个方面:对象是如何定义的、数据规模有多大、是否需要保留顺序、业务上是否真的需要整个对象级别的判重。这几个问题如果没理清楚,distinct() 很容易就会变成一个隐蔽的问题来源。
相关攻略
UncheckedIOException:让受检异常在 Stream 流中“合法”通行 在 Ja va 的 Stream 编程中,处理文件或网络操作时,你肯定遇到过这个令人头疼的编译错误:“Unhandled exception type IOException”。问题根源在于,IOExceptio
怎么利用 Stream peek() 在流处理的中间环节打印调试信息而不中断流 Stream peek() 的核心作用就是“不改变流,只观察元素” 简单来说,peek() 就像流处理管道上的一个“观察窗”。它是个中间操作,接收一个 Consumer,允许你对每个流元素执行一些“副作用”——比如打印日
怎么区分 Stream 流的并行处理 parallel() 与普通处理在底层线程池(ForkJoinPool)的共用 简单来说,并行流的 parallel() 并不创建新线程池,而是直接复用 JVM 全局共享的 ForkJoinPool commonPool()。普通流(stream())则完全是另
怎么利用 IntStream summaryStatistics() 一次性获取整数序列的均值、极值与总和 在Ja va的流式编程中,IntStream summaryStatistics() 方法堪称一个“统计多面手”。它返回一个包含计数、总和、最小值、最大值和平均值的对象。这里有个关键细节:对于
11 月 11 日消息,海盗船旗下 Elgato 德国当地时间 10 日宣布推出 Discord 特别版 Stream Deck Mini。这款拥有六个可自定义 LCD 按键的直播控台采用了 Di
热门专题
热门推荐
WF-1000XM4蓝牙配对指南:两种触发路径,一个核心逻辑 给索尼WF-1000XM4配对,核心其实就一件事:让耳机进入“被发现”的状态。有意思的是,它并不依赖某个单一的物理按键,而是提供了双路径的触发方式。根据官方的操作指南以及多次的实际测试,无论是通过充电盒上的功能键,还是直接操作耳机本身,都
迅捷路由器桥接失败怎么办?原因分析与解决方法大全 许多用户在使用迅捷路由器进行无线桥接时,经常遇到“显示已连接但无法访问互联网”的问题。实际上,这通常并非设备故障,而是由于关键的网络参数配置不当或主副路由器之间的通信协调不畅所致。简单来说,就是两台路由器之间的设置没有完全匹配。那么,具体哪些环节最容
迅捷路由器无线桥接:手机端设置实操指南 使用手机为迅捷路由器配置无线桥接(WDS),听似专业,实则通过官方适配的移动端界面就能轻松完成。只要满足几个关键条件,您仅需一部手机即可高效架设扩展网络。操作时,请先将手机连接至副路由器的默认无线信号(通常以FAST_XXXX格式命名),随后在Safari或C
小米空调联网故障全解析:从新手排查到专家级修复,步步为营 当小米空调始终无法成功连接网络时,许多用户的第一反应往往是联系售后或怀疑设备故障。然而实际情况是,超过九成的联网失败案例,根源都出在网络配置、操作流程这类“软性”环节,空调硬件本身出问题的概率极低。解决问题的核心在于掌握系统化的排查思路,按照
有线音响加装蓝牙功能并不复杂,普通用户借助外置蓝牙接收器即可在十分钟内完成升级 想给家里的老款有线音响“剪掉”那根烦人的音频线?其实这件事没你想的那么复杂。普通用户完全不需要动用电烙铁,借助一个小巧的外置蓝牙接收器,十分钟之内就能搞定升级。核心操作很简单:确认你的音箱背面有标准的3 5毫米或RCA音





