当前位置: 首页 > news >正文

【数据结构与算法】哈希表拾遗

一.什么是哈希表

哈希表是一种基于数组和哈希函数实现的 键值对映射结构,可以实现 常数级别的插入、查找和删除,是高效的数据结构。
其中哈希表的核心思想:把“键”通过哈希函数转换为数组下标,从而将数据直接存储到对应位置上,进而在查找上实现O(1)的复杂度。
eg:

index = hash(key) % 表大小;
table[index] = value;

二.哈希函数

哈希函数的映射方式是:如何将“键”转换为数组中的索引值(,以便将其映射到哈希表的某个位置。下面我们介绍两个最常见的映射方法。

1.直接定址法

直接使用key本身或者某个线性函数作为哈希地址:

hash(key) = key 或 hash(key) = a × key + b

缺点:

  • 要求 key 是整数并且范围较小、稠密
  • 浪费空间(如果 key 很大但稀疏)

2.除留余数法

将 key 除以哈希表长度,取余作为哈希地址:

hash(key) = key % mod

一般会使用小于等于表长的最大质数作为mod可以减少冲突。

优点:

  • 通用性强,适用于整数 key
  • 简单易实现

3.多项式哈希

字符串不能直接参与数学运算,需逐字符映射:

hash(s) = s[0] × pⁿ⁻¹ + s[1] × pⁿ⁻² + ... + s[n-1] × p⁰

优点:

  • 可适配英文、数字等字符串
  • 冲突率低,适合文本类 key

eg:

  • 字符串:“abc”
  • ASCII值:a=97,b=98,c=99
  • 选择一个小的质数 p = 31
hash("abc") = 97 × 31² + 98 × 31¹ + 99 × 31= 97 × 961  + 98 × 31   + 99 × 1= 97 × 961   = 93217  98 × 31    = 3038   99 × 1     = 99合计:   93217 + 3038 + 99 = **96354**

如果哈希表长为10007:

96354 % 10007 = 6276

最终哈希表中的桶下标就是 6276。
其中p应该怎么选择呢

  • 必须是一个质数 可以减少哈希冲突,比如 31, 33, 131, 1313, 13331 等
  • 应大于字符集大小 如果字符是 ASCII,最好 p > 128;如果是 Unicode,p > 65536
  • 不宜太大 太大会造成哈希值溢出,计算效率低

常用的p值推荐:

  • 31 常用于小写英文字母字符串
  • 131 中文支持更好,冲突率低
  • 33 GCC 早期使用
  • 5381 被著名的 djb2 哈希算法使用
  • 65599 sdbm 哈希算法

三.哈希冲突与解决

1.是什么是哈希冲突

不同的键经过哈希函数计算后,映射到了哈希表中的同一个索引位置。

2.开放地址法

当发生冲突的时候使用不同的方法寻找下一个空位置:

1.线性探测

从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
缺点:
容易产生“聚集”:连续冲突元素形成连续占用空间,导致探测效率下降。

2.平方探测

平方探测法测试按照这样的规则顺序探测:

Hash(key) = (Hash(key) + d) % 11
d = 1^2, -1^2, 2^2, -2^2......

优点:

  • 避免一次聚集,冲突分布更均匀
  • 比线性探测在高负载下表现更好

缺点:

  • 实现略复杂
  • 可能出现“二次聚集”
  • 如果哈希表大小不是质数,可能无法探测到所有桶(导致无法插入)

在开放地址法哈希表中,删除元素不能直接清空,而是通过设置“删除标志位” 确保查找不会中断,能正常插入。

3.链地址法

每个哈希桶不只存一个元素,而是存一个链表
当多个键通过哈希函数映射到同一个桶时,它们就被链接到该桶的链表上。
在这里插入图片描述

C++中的unordered_map/unordered_set实现采用“链地址法 + 链表结构 + 动态 Rehash 机制”相结合的方式。
Rehash(再哈希)的步骤

  1. 分配一个新的更大数组(通常是原来容量的 2 倍或最接近的质数)
  2. 重新遍历旧哈希表
  3. 对每个旧元素重新计算新哈希值(因为 table_size 改变了)
  4. 插入到新表对应的新桶中(重新分配链表)
  5. 释放旧表空间
http://www.dtcms.com/a/264918.html

相关文章:

  • npm install安装的node_modules是什么
  • 开源计算机视觉的基石:OpenCV 全方位解析
  • RabbitMQ 高级特性之消息确认
  • 【Java面试】讲讲Redis的Cluster的分片机制
  • 前端面试专栏-主流框架:16. vue工程化配置(Vite、Webpack)
  • Django 安装使用教程
  • Linux基本命令篇 —— which命令
  • 无人机AI制导模块运行方式概述
  • 免费版安全性缩水?ToDesk、TeamViewer、向日葵、网易UU远程访问隐私防护测评
  • 【C#引用DLL详解】
  • 使用 JavaScript、Mastra 和 Elasticsearch 构建一个具备代理能力的 RAG 助手
  • docker离线/在线环境下安装elasticsearch
  • SpringCloud系列(47)--SpringCloud Bus实现动态刷新定点通知
  • springboot切面编程
  • 大数据Hadoop之——Hbase下载安装部署
  • CSS外边距合并(塌陷)全解析:原理、场景与解决方案
  • OD 算法题 B卷【求最小步数】
  • 计算机视觉的新浪潮:扩散模型(Diffusion Models)技术剖析与应用前景
  • 360安全卫士占用5037端口(ADB端口)解决方案
  • 【小技巧】Python+PyCharm IDE 配置解释器出错,环境配置不完整或不兼容。(小智AI、MCP、聚合数据、实时新闻查询、NBA赛事查询)
  • 智慧赋能高压并网:分布式光伏监控系统在5.88MW物流园项目的实践解析
  • 深入解析 OPC UA:工业自动化与物联网的关键技术
  • css实现优惠券效果 全
  • DAY 45 通道注意力(SE注意力)
  • langchain从入门到精通(三十四)——RAG优化策略(十)父文档检索器实现拆分和存储平衡
  • JavaFX:属性Property简介
  • 集合-二叉搜索树
  • 【在 C# 中通过 P/Invoke 调用 C++ DLL 时的数据类型转换】
  • 第二章-AIGC入门-文本生成:开启内容创作新纪元(4/36)
  • 字典课后练习讲解|5类数据容器的总结对比