Java HashMap 的实现分析
在 Java 中,Map
和 Set
接口,最常用的实现类分别为 HashMap
和 HashSet
, 而 HashSet
的背后实际上就是 HashMap。 因此, 为探究 Java 实现 Hash 集合类的方法,在这里对 Java HashMap
的源码进行简单的分析。
在 HashMap
中,实际上 每个 entry
元素(key-value 对) 是存放在一个个的 node 中的,Node 的结构 定义在一个静态内部类中,如下:
1 | static class Node<K,V> implements Map.Entry<K,V> { |
HashMap
中提供了一个静态工具方法 hash()
来计算 键值对 对应的 Node
中的 int
变量 hash
的值,代码如下:
1 | static final int hash(Object key) { |
可以看到,return
首先判断 key 是否为 null
,如果是 null
对应的 hash
值直接为 0,如果不为 0,hash()
方法将对 hashCode
的低 16位值进行处理,将低16位变为高16位于低16位异或的结果(Note: >>>
为无符号移位,即符号位也移动)。
将键值对包装为 Node
对象后,HashMap 会将这些 node 存放在一个数组中, 数组的声明如下:
1 | transient Node<K,V>[] table; |
每个数组元素称为一个 bucket。数组的大小称为 capacity,在 HashMap
的构造函数或 put
函数中会对数组进行初始化。
随着不断向 map 中添加元素,数组的 capacity 需要动态的进行调整,这里使用一个 load factor 参数来表述 map 中元素个数与数组 capacity 的关系, capacity * (load factor) == Map.size
, 即数组大小乘上 load factor 为 map 中元素个数。当 map 中元素的个数超过上述 限值的时候,HashMap 会增大 capacity 为原来的一倍(*2)。
将 key-value 对应的 node 放置在 Map 中数组的哪个位置(index),使用 公式 index = (n - 1) & hash
确定,由于 n 为 2 的整数次方,所以该公式的效果就是截取 hash 值的最后 k 位,作为index 值(k为 n 的指数,即 2^k = n, k 为整数)。这里也解释了前面不是直接使用 hashCode 值作为 node 的 hash 值,而是将高16位与低16位异或作为新的低 16 位值,从而让 hash 值的高位和低位都能反映到位号 index 上,以使得 元素能够尽量更加均匀的分布在数组中。
上面的流程中,由于只取 hash 值的最后几位,会存在 多个具有不同 hashCode 的对象对应到相同的位号的情况,这时,具有不同 hashCode 值但是计算出相同 index 值的元素以 链表的形式连接,被放置在同一个 bucket 中(也叫 bin 中)。Java 8 后,对不同元素具有同一个 index 值的情况进行了优化,添加了一个 阈值,当 同一个 bin 中的 node 数量超过 阈值时,会将链表存储结构变为 红黑树结构。
上面的文字描述介绍了整个 HashMap 进行元素存储的过程,下面对重要的源码进行简单的分析。
上述分析中涉及的变量初始值定义如下:
1 | // 默认容量大小,一定是 2的次方(a power of two) |
上述描述的过程 可以通过 put 函数更好的进行说明,具体的过程参看下面代码中的注释部分:
1 | // public 的 put 函数 |
参考: