当前位置：首页 > news >正文

数据结构十四、哈希表

news 2025/10/14 15:15:39

一、哈希表的概念

哈希表（hash table），又称散列表，是根据关键字直接进行访问的数据结构。哈希表建立了一种关键字和存储地址之间的直接映射关系，使得每一个关键字与结构中的唯一存储位置相对应。

将关键字映射成对应地址的函数就是哈希函数，也称散列函数，记作Hash（key）= Addr。哈希函数可能会把两个或两个以上的不同关键字映射到同一地址，这种情况称为哈希冲突，也叫散列冲突。起冲突的不同关键字，称它们为同义词。

由此可见，设计一个优秀的哈希表，不仅需要设计一个好的哈希函数，也要能够处理哈希冲突。

二、哈希函数

1、直接定址法

第一个案例中，统计字符串小写字符出现的次数所用的方法就是直接定址法。直接取关键字的某个线性函数值为散列地址，散列函数是hash（key）=a×key+b，其中a和b是常数。这种方式计算比较简单，适合关键字连续分部的情况。但是如果关键字分布不连续，空位较多，则会造成存储空间的浪费。

2、除留余数法

第二个案例所用的函数的方法就是除留余数法。假设哈希表的大小为M，那么通过key除以M的余数作为映射位置的下标，hash（key） = key % M。因此，这种方法的重点就是选好模数M。（一般M取不太接近2的整数次幂的一个质数）但是要注意，key有可能是负数，取模之后会变成负数，负数补正的操作只需要加上模数即可，但是正数加上模数会变大，所以统一再取一次模。最终就是（key % M + M）% M。

三、处理哈希冲突

1、线性探测法

从发生冲突的位置开始，依次向后探测，直到寻找到下一个没有存储数据的位置为止，如果走到哈希表尾，则回到哈希表头的位置。

#include <iostream>
#include <cstring>
using namespace std;

const int N = 23, INF = 0x3f3f3f3f;
int h[N];

void init()
{
	memset(h, 0x3f, sizeof h);
}

int f(int x)
{
	int id = (x % N + N) % N;
	while (h[id] != INF && h[id] != x)
	{
		id++;
		if (id == N)
			id = 0;
	}
	return id;
}

void insert(int x)
{
	int idx = f(x);
	h[idx] = x;
}

bool find(int x)
{
	int id = f(x);
	return h[id] == x;
}

2、链地址法

链地址法中所有的数据不再直接存储在哈希表中，哈希表中存储一个指针，没有数据映射这个位置时，这个指针为空，有多个数据映射到这个位置时，我们把这些冲突的数据连接成一个链表，挂在哈希表这个位置下面。实现方式与树的链式前向星一模一样。

#include <iostream>
using namespace std;

const int N = 23;
int h[N];
int e[N], ne[N];
int id;

int f(int x)
{
	return (x % N + N) % N;
}

void insert(int x)
{
	int idx = f(x);
	//把x头插到idx所在的链表中
	id++;
	e[id] = x;
	ne[id] = h[idx];
	h[idx] = id;
}

bool find(int x)
{
	int idx = f(x);
	for (int i = h[idx];i;i = ne[i])
	{
		if (e[i] == x)
			return true;
	}
	return false;
}