当前位置：首页 > news >正文

哈希表的HashMap 和 HashSet

news 2025/10/29 7:12:25

哈希表

1、概念

顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(logN)，平衡树中为树的高度，即O(logN )，搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。

1. 对比传统搜索的不足

顺序结构（如数组、链表）：元素关键码和存储位置无直接关联，查找时需逐个比较，时间复杂度为 O(N)（N 是元素数量）。
平衡树（如红黑树）：查找时需按树的高度逐层比较，时间复杂度为 O(log₂N)。这两种方式的效率都依赖 “比较次数”，而哈希方法的目标是跳过比较，直接定位。

2. 哈希方法的核心逻辑

通过哈希函数（hashFunc） 建立 “元素关键码 ↔ 存储位置” 的一一映射关系：

插入元素：用哈希函数计算关键码对应的存储位置，直接将元素存到该位置。
搜索元素：用同样的哈希函数计算关键码的存储位置，直接到该位置取元素并验证关键码，若匹配则搜索成功。

3. 哈希表的定义

采用哈希方法构造的存储结构称为哈希表（Hash Table，也叫散列表），其中：

哈希函数是 “关键码→存储位置” 的转换规则；
哈希表的核心优势是搜索效率极高（理想情况下可达到 O(1)，即一次定位）

当向该结构中：

插入元素

根据待插入元素的关键码，以此函数计算出该元素的存储位置并按此位置进行存放

搜索元素

对元素的关键码进行同样的计算，把求得的函数值当做元素的存储位置，在结构中按此位置取元素比较，若关键码相等，则搜索成功

该方式即为哈希(散列)方法，哈希方法中使用的转换函数称为哈希(散列)函数，构造出来的结构称为哈希表(Hash Table)(或者称散列表)

例如：数据集合{1，7，6，4，5，9}；

哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

用该方法进行搜索不必进行多次关键码的比较，因此搜索的速度比较快

问题：按照上述哈希方式，向集合中插入元素44，会出现什么问题？

2、冲突-概念

对于两个数据元素的关键字和 (i != j)，有 != ，但有：Hash( ) == Hash( )，即：不同关键字通过相同哈希哈数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞。

把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

3、冲突-避免
首先，我们需要明确一点，由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的，这就导致一个问题，冲突的发生是必然的，但我们能做的应该是尽量的降低冲突率。

4、冲突-避免-哈希函数设计
引起哈希冲突的一个原因可能是：哈希函数设计不够合理。

哈希函数设计原则：

哈希函数的定义域必须包括需要存储的全部关键码，而如果散列表允许有m个地址时，其值域必须在0到m-1 之间
哈希函数计算出来的地址能均匀分布在整个空间中哈希函数应该比较简单

4.1常见的哈希函数

4.1.1直接定制法--(常用)
取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B

优点：简单、均匀

缺点：需要事先知道关键字的分布情况

使用场景：适合查找比较小且连续的情况

面试题： 387.字符串的第一个字符——力扣（LeetCode）

我们可以对字符串进行两次遍历。

在第一次遍历时，我们使用哈希映射统计出字符串中每个字符出现的次数。在第二次遍历时，我们只要遍历到了一个只出现一次的字符，那么就返回它的索引，否则在遍历结束后返回 −1。

class Solution {public int firstUniqChar(String s) {Map<Character, Integer> frequency = new HashMap<Character, Integer>();for (int i = 0; i < s.length(); ++i) {char ch = s.charAt(i);frequency.put(ch, frequency.getOrDefault(ch, 0) + 1);}for (int i = 0; i < s.length(); ++i) {if (frequency.get(s.charAt(i)) == 1) {return i;}}return -1;}
}

4.1.2除留余数法--(常用)
设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数： Hash(key) = key% p(p<=m),将关键码转换成哈希地址

4.1.3平方取中法--(了解)
假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址

平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况

4.1.4折叠法--(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。

折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况

4.1.5随机数法--(了解)
选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。

通常应用于关键字长度不等时采用此法

4.1.6数学分析法--(了解)
设有n个d位数，每一位可能有 r 种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。

例如：

假设要存储某家公司员工登记表，如果用手机号作为关键字，那么极有可能前7位都是相同的，那么我们可以选择后面的四位作为散列地址，如果这样的抽取工作还容易出现冲突，还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方法。

数字分析法通常适合处理关键字位数比较大的情况，如果事先知道关键字的分布且关键字的若干位分布较均匀的情况

注：哈希函数设计的越精妙，产生哈希冲突的可能性就越低，但是无法避免哈希冲突

5、冲突-避免-负载因子调节（重点掌握）

负载因子和冲突率的关系粗略演示

所以当冲突率达到一个无法忍受的程度时，我们需要通过降低负载因子来变相的降低冲突率。

已知哈希表中已有的关键字个数是不可变的，那我们能调整的就只有哈希表中的数组的大小。

5.6 冲突-解决

解决哈希冲突两种常见的方法是：闭散列和开散列

#5.7 冲突-解决-闭散列

闭散列：也叫开放地址法，当发生哈希冲突时，如果哈希表未被装满，说明在哈希表中必然还有空位置，那么可以把key存放到冲突位置中的“下一个”空位置中去。那如何寻找下一个空位置呢？

5.7.1 线性探测

比如上面的场景，现在需要插入元素44，先通过哈希函数计算哈希地址，下标为4，因此44理论上应该插在该位置，但是该位置已经放了值为4的元素，即发生哈希冲突。

线性探测：从发生冲突的位置开始，依次向后探测，直到寻找到下一个空位置为止。

插入

通过哈希函数获取待插入元素在哈希表中的位置
如果该位置中没有元素则直接插入新元素，如果该位置中有元素发生哈希冲突，使用线性探测找到下一个空位置，插入新元素

采用闭散列处理哈希冲突时，不能随便物理删除哈希表中已有的元素，若直接删除元素会影响其他元素的搜索。比如删除元素4，如果直接删除掉，44查找起来可能会受影响。因此线性探测采⽤标记的伪删除法来删除⼀个元素。

5.7.2 二次探测

.7.3 总结

1. 优点：

• 不需要额外的数据结构（如链表），空间利用率高。

• 实现相对简单。

• 缓存性能好，因为数据都存储在连续的内存空间中。

• 不需要存储指针，节省空间。

2. 缺点：

• 容易产生聚集现象（尤其是线性探测）。

• 删除操作复杂（需要特殊处理以保持查找链的完整性）。

• 装载因子不能太大，否则性能会急剧下降。

• 二次聚集（对于二次探测）

5.8 冲突-解决-开散列/哈希桶（重点掌握）

开散列法又叫链地址法(开链法)，首先对关键码集合用散列函数计算散列地址，具有相同地址的关键码归于同⼀子集合，每⼀个子集合称为一个桶，各个桶中的元素通过⼀个单链表链接起来，各链表的头结点存储在哈希表中

从上图可以看出，开散列中每个桶中放的都是发生哈希冲突的元素。开散列，可以认为是把⼀个在大集合中的搜索问题转化为在小集合中做搜索了。

5.9 冲突严重时的解决办法

刚才我们提到了，哈希桶其实可以看作将大集合的搜索问题转化为小集合的搜索问题了，那如果冲突严重，就意味着小集合的搜索性能其实也时不佳的，这个时候我们就可以将这个所谓的小集合搜索问题继续进行转化，例如：

1.每个桶的背后是⼀棵搜索树

2.每个桶的背后是另⼀个哈希表

3.哈希函数重新设计

4. .....

标准的 Map<K, V> 接口（如 HashMap、TreeMap 等）严格遵循 “一个键（Key）对应一个值（Value）” 的规则

1. 用 `Map<K, Collection<V>>` 间接实现

可以将 Value 封装为一个集合（如 List、Set），让一个 Key 对应一个 “值的集合”，从而间接实现 “多值映射”。

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;public class MultiValueMapDemo {public static void main(String[] args) {// 定义：Key 是 String，Value 是 List<String>（存储多个值）Map<String, List<String>> multiMap = new HashMap<>();// 向 Key="水果" 中添加多个 ValueList<String> fruits = new ArrayList<>();fruits.add("苹果");fruits.add("香蕉");fruits.add("橙子");multiMap.put("水果", fruits);// 向 Key="蔬菜" 中添加多个 ValueList<String> veggies = new ArrayList<>();veggies.add("西红柿");veggies.add("黄瓜");multiMap.put("蔬菜", veggies);// 读取 Key="水果" 的所有 ValueSystem.out.println("水果列表：" + multiMap.get("水果")); // 输出 [苹果, 香蕉, 橙子]}
}

2. 使用第三方库的 “多值映射” 工具类

一些 Java 工具库（如 Apache Commons Collections）提供了专门的 MultiValuedMap 接口及实现类（如 ArrayListValuedHashMap），可以直接支持 “一个 Key 对应多个 Value”。

  // 插入键值对（头插法）public void put(K key, V value) {int hash = key.hashCode();int index = hash % capacity;  // 计算桶索引（简化版）// 创建新节点Node<K, V> newNode = new Node<>(key, value);if (table[index] == null) {// 桶为空，直接作为头节点table[index] = newNode;} else {// 桶不为空，头插法：新节点指向原头节点，再成为新头节点newNode.next = table[index];  // 新节点的next指向原头节点table[index] = newNode;       // 桶的头节点更新为新节点}}
}
尾插法
// 计算键的哈希值，确定桶的索引
int hash = key.hashCode();
int index = hash % table.length;  // 假设用取模计算桶索引// 获取桶的头节点
Node<K, V> head = table[index];if (head == null) {// 桶为空，直接将新节点作为头节点table[index] = new Node<>(key, value);
} else {// 桶不为空，遍历链表到尾部，添加新节点Node<K, V> current = head;while (current.next != null) {current = current.next;  // 移动到链表最后一个节点}current.next = new Node<>(key, value);  // 新节点挂到尾部
}

// key-value 模型public class HashBucket {private static class Node {private int key;private int value;Node next;public Node(int key, int value) {this.key = key;this.value = value;}}private Node[]  array;private int size;   // 当前的数据个数private static final double LOAD_FACTOR = 0.75;public int put(int key, int value) {int index = key % array.length;// 在链表中查找key 所在的结点// 如果找到了，更新// 所有结点都不是 key，插⼊⼀个新的结点for (Node cur = array[index]; cur != null; cur = cur.next) {if (key == cur.key) {int oldValue = cur.value;cur.value = value;return oldValue;}}Node node = new Node(key, value);node.next = array[index];array[index] = node;size++;if (loadFactor() >= LOAD_FACTOR) {resize();}return -1;}private void resize() {Node[] newArray = new Node[array.length * 2];for (int i = 0; i < array.length; i++) {Node next;for (Node cur = array[i]; cur != null; cur = next) {next = cur.next;int index = cur.key % newArray.length;cur.next = newArray[index];newArray[index] = cur;}}array = newArray;}private double loadFactor() {return size * 1.0 / array.length;}public HashBucket() {array = new Node[8];size = 0;}public int get(int key) {int index = key % array.length;Node head = array[index];for (Node cur = head; cur != null; cur = cur.next) {if (key == cur.key) {return cur.value;}}return -1;}}

5.11性能分析

虽然哈希表⼀直在和冲突做斗争，但在实际使用过程中，我们认为哈希表的冲突率是不高的，冲突个数是可控的，也就是每个桶中的链表的长度是⼀个常数，所以，通常意义下，我们认为哈希表的插入/ 删除/查找时间复杂度是O(1)。

5.12 和java类集的关系

1. HashMap和HashSet即java中利用哈希表实现的Map和Set

2. java 中使用的是哈希桶放式解决冲突的

3. java 会在冲突链表长度大于⼀定阈值后，将链表转变为搜索树（红黑树）

4. java 中计算哈希值实际上是调用的类的hashCode方法，进行key的相等性比较是调用key的 equals 方法。所以如果要用自定义类作为HashMap的key或者HashSet的值，必须覆写 hashCode和equals方法，而且要做到equals相等的对象，hashCode一定是⼀致的。

只出现一次的数字

用引用类型的时候怎么办呢？

这时候我们就要使用泛型了

标准的 Map<K, V> 接口（如 HashMap、TreeMap 等）严格遵循 “一个键（Key）对应一个值（Value）” 的规则

1. 用 `Map<K, Collection<V>>` 间接实现

可以将 Value 封装为一个集合（如 List、Set），让一个 Key 对应一个 “值的集合”，从而间接实现 “多值映射”。

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;public class MultiValueMapDemo {public static void main(String[] args) {// 定义：Key 是 String，Value 是 List<String>（存储多个值）Map<String, List<String>> multiMap = new HashMap<>();// 向 Key="水果" 中添加多个 ValueList<String> fruits = new ArrayList<>();fruits.add("苹果");fruits.add("香蕉");fruits.add("橙子");multiMap.put("水果", fruits);// 向 Key="蔬菜" 中添加多个 ValueList<String> veggies = new ArrayList<>();veggies.add("西红柿");veggies.add("黄瓜");multiMap.put("蔬菜", veggies);// 读取 Key="水果" 的所有 ValueSystem.out.println("水果列表：" + multiMap.get("水果")); // 输出 [苹果, 香蕉, 橙子]}
}

泛型的重要知识点：无法直接创建泛型数组，先创建原始数组，然后再强制转换成你想要的那个数组

(Node<K, V>[]) new Node[10]

new Node[10]：创建一个长度为 10 的原始类型数组（Node 类型，未指定泛型参数）。
(Node<K, V>[])：将原始类型数组强制转换为泛型数组（因为 Java 不允许直接创建 new Node<K, V>[10] 这样的泛型数组，需要先创建原始类型数组再强转）

根本原因是 Java 泛型存在 “类型擦除” 机制：编译时泛型参数（如 K、V）会被擦除为原始类型（如 Object），而数组在运行时需要明确知道元素的具体类型（数组是 “具体化” 的，运行时保留类型信息）。

接下来看一下源码：

如果一个一个的看那不太现实，我们看一些关键的源码：

看一下构造方法的源码：

负载因子：load_factor 的默认值是 0.75

put 方法：

不带参数的构造方法：并没有对table 数组进行初始化，他的值就是null

^ (异或)无符号右移<<< ：

这里给大家解释一下：

异或是：不相同为1，相同为0

1.尽量得到的整数是均匀的

核心在于它解决了原始哈希值高位信息被浪费的问题，通过混合高低位信息，增加了哈希值的随机性，从而减少哈希冲突。

源码中扩容机制就是如下

扩容的时候需要注意什么？

需要重新hash

哈希表通常会设置负载因子（如 Java HashMap 默认负载因子为 0.75），当元素数量 / 容量 > 负载因子时触发扩容。需注意：负载因子过高会增加哈希冲突概率，过低则浪费空间。需根据业务场景权衡（如写多读少的场景可适当降低负载因子，减少扩容频率）。

扩容操作是耗时操作（需要迁移所有节点），频繁扩容会影响性能，因此负载因子的选择需平衡空间和时间成本。

那map 和 hashmap 之间有什么区别

equals 与 hashcode 的区别

hashcode 为什么还能一样呢

对于Integer分为两种请情况：

对于 Integer 类型而言，只要其包装的数值在 int 的取值范围（-2³¹ ~ 2³¹-1，即 -2147483648 ~ 2147483647）内，hashCode 就绝对不会重复。
数值超出 int 范围 → 强制转换 / 包装后 hashCode 会重复
int 类型的取值范围是固定的（-2³¹ ~ 2³¹-1），若数值超出此范围（如 long 类型的 2³¹ 或 -2³¹-1），通过强制转换为 int 或用 Integer 包装时，会发生数值溢出，导致不同的原始数值最终对应同一个 Integer 值，进而 hashCode 重复。