处理Hash冲突的办法

Hash冲突也叫Hash碰撞，指的就是两个不同的元素，经过hash函数的计算后，得到的hash值一样

处理hash冲突的方法通常有以下几种：

将哈希表中每个槽的位置变成一个链表，当多个键的哈希值相同时，将它们存储在同一个链表中。

如果出现碰撞，寻找哈希表中的下一个可用位置。

在出现碰撞时，使用第二个哈希函数计算新的索引位置，如果还冲突则再用另一个哈希函数重新算一次位置，直到无冲突。

理论上是的，核心原理就是鸠占鹊巢，也叫抽屉原理。

空间有限，而元素无限或超过空间容量时，那么必定有一个空间会至少有两个元素。就像10只鸡要关在9个鸡笼里一样，那么必然有一个鸡笼至少有两只鸡。

拉链法是最常见、也是最容易理解的方法。Java 的 HashMap 就是采用这种方式（数组 + 链表/红黑树）。

核心思想是：外挂存储。哈希表的每一个槽位（Bucket）不再只存一个数据，而是作为一个“入口”。所有哈希值相同的 Key，都像挂葡萄一样，挂在这个入口下面的链表上。

工作流程：

这种方式的优点是：

缺点也很明显：

所以jdk 1.8的时候，引入了红黑树来优化发生hash冲突时，链表On的查询复杂度

这种方法不用额外的链表，所有的数据都必须存在主数组里。

其核心思想是：占坑位。如果你的位置被占了，你就去数组里找下一个空位。这就像在电影院找座位，票上的座位有人了，你就往后挨个找空座。

常见的探测方式：

这种方式的优点是：

缺点：

删除困难：你不能直接把元素删掉，因为这会截断后续元素的查找路径。通常需要标记为“墓碑（Tombstone）”或“已删除”，逻辑复杂。

即Entry中增加一个isDeleted变量来充当Tombstone标记，如果isDeleted判断为true就可以直接在此插入新元素，否则就继续探测

比较有意思的是TreadLocalMap也还是采用的开放寻址里的线性探测法，但他的Entry里只有key-value没有额外的Tombstone标记。但别忘了TreadLocalMap里key是WeakReference，如果threadLocal的强引用没了，那么key就会被gc回收，那么在后续的set中，如果判断到当前key为null就会覆盖，get时，如果判断到当前key为null就会清理
聚集现象：这是线性探测最大的问题。一旦某一块区域冲突多了，数据会连成一片，后续插入的数据为了找空位要走很久，导致性能急剧下降。
容量限制：因为没有链表，数组存满了就必须扩容，负载因子通常不能太高（一般 0.7 左右性能就开始下降）。

当一个哈希函数计算出的地址发生冲突时，它会使用另一个哈希函数来重新计算地址，直到找到一个空位为止。

核心思想是：多重哈希。不进行探测（不去找相邻或跳跃的空位），而是直接换一个新哈希函数重新计算一个全新的地址，直到不冲突！

工作流程：

优点是：

缺点：

计算开销大：每次冲突都要做一次完整的、复杂的哈希运算（比如 MD5 换成 SHA-1，或者不同的多项式计算），比简单的“加法探测”要消耗更多的 CPU 时间。
函数设计难：需要准备好几个“足够好且相互独立”的哈希函数，这在实现上比较麻烦。

Comments