当前位置：首页 > news >正文

Java 集合 “Map（2）”面试清单（含超通俗生活案例与深度理解）

news 2025/10/4 5:39:27

一、常见的哈希函数构造方法有哪些？HashMap 采用的是哪种，有什么特点？

• 核心方法：共 5 种主流构造方法，HashMap 基于「除留取余法」做了优化改造（比如混合哈希值高位与低位信息），让散列更均衡、计算更高效；其余四种分别是直接定址法、数字分析法、平方取中法、折叠法。

• 通俗理解与原创例子：

◦ 除留取余法（HashMap 优化版）：类比小区快递驿站的货架分配，驿站有 16 个货架（哈希表容量），为避免快递扎堆，选择不大于 16 的质数 15 当“分配依据”。快递员按收件人手机号后四位除以 15 取余数，余数是 6 就放 6 号货架。HashMap 会额外把手机号后四位（哈希值）的前 8 位和后 8 位做一次混合（异或操作），再取余，避免因手机号前几位重复导致的货架扎堆。

◦ 直接定址法：像学校的储物柜，每个学生的学号就是柜号，学号 2023001 就用 2023001 号柜，不用额外计算。适合学号（key）范围固定且连续的场景，要是学号跨度大（比如从 2023001 到 2025000），就需要准备 2000 个柜子，太浪费空间。

◦ 数字分析法：比如公司的工号格式是「部门（2 位）-入职月（2 位）-序号（2 位）」，如“技术部（03）-05 月-12 号”是 030512。若要按“部门+入职月”统计新人，直接取工号中间 4 位“0305”作为分组标识，不用看序号，精准提取关键信息，减少无效数据干扰。

◦ 平方取中法：比如给健身房的储物柜编号，会员卡号是 345，先算 345 的平方是 119025，取中间三位“902”作为柜号；会员卡号 346，平方是 119716，取中间“971”。即使卡号相近（345 和 346），平方后中间几位差异大，能减少不同会员用同一柜子的概率。

◦ 折叠法：比如快递单号是 1234567890（10 位），要分到 500 个暂存区，就按 3 位一段折成 4 段（123、456、789、0），相加得 123+456=579、579+789=1368、1368+0=1368，再用 1368 对 500 取余得 368，把快递放 368 号暂存区，适合长 key 场景。

二、解决哈希冲突的常见方法有哪些？HashMap 采用的是哪种，原理是什么？

• 核心方法：共 4 种经典方法，HashMap 用「链地址法」解决冲突，其他三种是开放定址法（线性探查、平方探查）、再哈希法、建立公共溢出区。

• 通俗理解与原创例子：

◦ 链地址法（HashMap 核心）：类比小区的智能快递柜，有 20 个柜子（数组位置），每个柜子能放 5 个快递。快递员按手机号取余找柜子，若 8 号柜满了（冲突），就在柜子旁挂一个“补充篮”（链表），把新快递放进篮子。当篮子里的快递超过 8 个，补充篮会换成“分层收纳盒”（红黑树），找快递时不用翻遍整个篮子，按层找更高效。

◦ 开放定址法-线性探查：像公司茶水间找空位，你想坐 4 号桌，有人了就依次看 5 号、6 号，直到找到空桌。比如 4 号、5 号有人，6 号空着就坐 6 号，但容易出现“扎堆”——4 号附近的桌子全满，后面的人得找更远的位置。

◦ 开放定址法-平方探查：还是找茶水间座位，想坐 4 号桌，有人了就按“4+1²=5 号、4+2²=8 号、4+3²=13 号”的顺序找，跳着找能避免扎堆。比如 4 号有人，5 号有人，就看 8 号，减少连续占座的情况。

◦ 再哈希法：比如去餐厅吃饭，1 号门排队太长（冲突），服务员说“2 号门没人，您去那边排”（换个哈希函数重新计算位置），不用在原队伍死等，但要多记一个“备用门”（备用哈希函数），有点麻烦。

◦ 建立公共溢出区：像超市的“临时寄存架”，入口有 10 个寄存柜（主数组），满了就把东西放旁边的寄存架（溢出数组）。取的时候先看寄存柜，没有再去寄存架找，适合冲突少的场景，要是寄存架堆太多，找东西就变慢。

三、HashMap 中链表转红黑树的阈值为什么是 8？转回链表的阈值为什么是 6？

• 核心原因：转红黑树是“空间换时间”的兜底策略，8 源于统计学泊松分布（极端冲突场景概率极低）；转回阈值 6 是避免“频繁转换”浪费资源。

• 通俗理解与原创例子：

◦ 阈值 8 的由来：类比咖啡店的取餐窗口，平时 1-7 人排队（链表），用普通窗口取餐（时间复杂度 O(n)）就行，排队人少，即使挨个取，总耗时短。但排队超过 8 人（概率仅 0.00000006，相当于“小概率极端情况”），再用普通窗口会让顾客等太久，这时候开“快速取餐窗口”（红黑树，O(logn)）。不过快速窗口成本高——需要专门的取餐设备（红黑树节点是普通节点的 2 倍），平时用不上，只有极端排队才开，平衡成本与效率。

◦ 转回阈值 6 的原因：如果转回阈值也设 8，会出现“反复横跳”——比如排队人数在 8 左右波动（8→7→8→7），咖啡店会频繁开/关快速窗口（链表→红黑树→链表），每次开关都要调试设备（调整树结构），浪费人力。设为 6 留“缓冲带”：排队从 9 人降到 7 人，仍用快速窗口；降到 6 人再关掉，避免在 8 附近频繁切换，更稳定。

四、HashMap 什么时候会扩容？默认加载因子为什么是 0.75？

• 核心逻辑：当元素数量达到“当前容量×加载因子”的临界值时，触发扩容（容量翻倍）；默认加载因子 0.75 是“空间成本”与“时间成本”的平衡，避免要么浪费空间、要么冲突太多。

• 通俗理解与原创例子：

◦ 扩容时机：类比共享单车的调度，某区域有 16 个停车点（默认容量），运营规定“停满 12 辆就加派停车点”（临界值=16×0.75=12）。当第 12 辆单车停进来，系统就会通知调度员，新增 16 个停车点（扩容到 32 个），把原有单车分到新老停车点（rehash）。要是等 16 个停车点满了再扩容，单车会堆在路边（冲突多），用户找车、停车都慢（查找效率低）。

◦ 加载因子 0.75 的平衡：如果设为 1（16 个停车点满了再扩容），像单车堆到满才加停车点，虽然少建停车点（省空间），但用户找车要翻遍堆在一起的单车（冲突多，链表长）；设为 0.5（8 辆就扩容），像没停几辆车就加停车点，用户找车快（冲突少），但要多建一倍停车点（浪费空间）。0.75 是 Java 团队测试的“最优解”——像运营的经验值，既不让单车堆太多，又不用建多余停车点，兼顾效率与成本。

五、JDK1.8 对 HashMap 做了哪些主要优化？分别解决了什么问题？

• 核心优化：共 5 处关键优化，针对“查找慢”“多线程死循环”“扩容效率低”“逻辑冗余”“计算冗余”问题。

• 通俗理解与原创例子：

◦ 优化一：数据结构从“数组+链表”改为“数组+链表/红黑树”

◦ 解决问题：链表过长导致的查找慢（O(n)→O(logn)）

◦ 例子：外卖平台的配送员分配，平时订单少，每个区域派 1-7 个配送员（链表），订单来了按顺序派单（O(n)）；节假日订单暴增，配送员超 8 个，就改成“分层派单制”（红黑树）——按配送距离分层，订单直接派给最近的配送员，不用挨个问，速度翻倍。

◦ 优化二：链表插入从“头插法”改为“尾插法”

◦ 解决问题：JDK1.7 头插法多线程扩容导致的“链表死循环”

◦ 例子：以前快递点整理快递，新快递放最前面（头插），比如先到的快递 A 放第一个，再到的 B 放 A 前面（B→A）。两个快递员同时整理同一货架，可能把链表改成 A→B 和 B→A 形成环（死循环），后续找快递绕圈。现在新快递放最后（尾插，A→B），即使多线程操作，也不会成环，只是顺序可能变，不会死循环。

◦ 优化三：扩容 rehash 从“重新算所有哈希值”改为“看哈希值新增 bit 位”

◦ 解决问题：扩容时重复计算导致的效率低

◦ 例子：小区从 8 栋扩到 16 栋，以前物业要给每家重新算门牌号（重新 hash），比如 3 栋住户要重新判断去 4 栋还是 5 栋，费时间。现在看门牌号最后一位新增的数字（bit 位）：是 0 就留原栋，是 1 就去“原栋+8”（3 栋→11 栋），不用重新算，扩容速度快一倍。

◦ 优化四：扩容时机从“先判断再插入”改为“先插入再判断”

◦ 解决问题：JDK1.7 重复判断的逻辑冗余

◦ 例子：以前超市进货，店员先算“货架还能不能放”（判断扩容），能放再摆货（插入），摆完还要再检查；现在先摆货，摆完看货架满没满（插入后判断扩容），少一次判断，逻辑更简洁。

◦ 优化五：散列函数从“4 次移位+4 次异或”改为“1 次高位异或”

◦ 解决问题：哈希值计算步骤过多的冗余

◦ 例子：以前算学生分班码，要做 4 次移位、4 次异或，步骤多还费时间。后来发现，只把分班码的前半段和后半段做一次异或（比如 123456→123^456），分班就足够均匀，步骤从 8 步减到 1 步，计算更快。

六、如果让你设计简单 HashMap（数组+链表版），需考虑哪些核心点？怎么实现？

• 核心要点：覆盖“哈希函数设计”“冲突解决”“扩容机制”“CRUD 操作”，确保功能完整、逻辑清晰。

• 通俗理解与原创例子（以“班级学生-座位号”映射为例）：

◦ 第一步：确定基础结构（数组+链表）

◦ 数组：班级有 8 个“座位区”（容量 8），每个区放“座位卡片”（链表节点），卡片写学生姓名（key）和座位号（value）；冲突时，卡片串成链表（一个区放多张卡片）。

◦ 第二步：设计哈希函数（学生对应哪个座位区）

◦ 逻辑：用学生姓名拼音首字母的 ASCII 码之和当原始哈希值，比如“张三”（Z=90，S=83）和为 173；为避免扎堆，先把 173 右移 4 位（10），再和 173 异或（173^10=163），最后对 8 取余（163÷8 余 3），对应 3 号座位区。

◦ 第三步：解决冲突（多个学生对应同一区）

◦ 逻辑：3 号区已有“李四”的卡片，就把“张三”的卡片接在“李四”后面（尾插法），形成“李四→张三”的链表；查找时，先找 3 号区，再顺着链表找姓名。

◦ 第四步：设计扩容机制（座位区不够时）

◦ 临界值：加载因子 0.75，临界值=8×0.75=6，学生数超 6 就扩到 16 个座位区。

◦ 重新分配：扩容后，用新容量 16 重新算座位区，比如“张三”原余 3，看哈希值新增 bit 位：0 就留 3 号区，1 就去 3+8=11 号区，避免座位区拥挤。

◦ 第五步：实现 CRUD 操作

◦ 新增（put）：算哈希值找座位区，空区直接放卡片，冲突接链表尾；放完查学生数，超临界值就扩容。

◦ 查找（get）：算哈希值找座位区，顺链表找姓名，找到返座位号，没找到返 null。

◦ 修改（update）：找到学生卡片，直接改座位号。

◦ 删除（remove）：找到卡片，从链表移除（前一张卡片的“下一张”指向后一张），区空了就设为 null。

七、HashMap 是线程安全的吗？多线程下可能出现哪些问题？

• 核心结论：HashMap 非线程安全，多线程下可能出现“死循环（JDK1.7）”“元素丢失”“get 为 null”，JDK1.8 修复死循环，但后两个问题仍存在。

• 通俗理解与原创例子：

◦ 问题一：JDK1.7 多线程扩容死循环

◦ 场景：两个线程同时给 HashMap 扩容（8→16），都处理 5 号区的链表 A→B→C。

◦ 过程：线程 1 用头插法改链表为 C→B→A，没改完；线程 2 继续改，把半成品链表改成 A→C→B，最终形成 A→B 和 B→A 的环（死循环）。后续找这个链表的元素，会一直绕圈，永远找不到。

◦ 问题二：多线程 put 元素丢失

◦ 场景：线程 1 放“张三-5 号座”，线程 2 放“李四-6 号座”，都算到 5 号区。

◦ 过程：线程 1 判 5 号区空，准备放卡片；没放完时，线程 2 也判 5 号区空（线程 1 未写入），直接放“李四”卡片。线程 1 继续执行时，覆盖“李四”卡片，导致“李四”丢失，只剩“张三”。

◦ 问题三：put 与 get 并发导致 get 为 null

◦ 场景：线程 1 执行 put 触发扩容，正在把“王五”的卡片从旧区移到新区；线程 2 同时 get“王五”。

◦ 过程：线程 1 已把“王五”从旧区移走，还没放到新区；线程 2 去旧区找，没找到，去新区找，也没找到（未放完），最终返回 null，但“王五”实际存在，只是在迁移中。

八、有哪些线程安全的 Map 实现？它们的实现原理有什么区别？

• 核心实现：3 种常用线程安全 Map——HashTable、Collections.synchronizedMap、ConcurrentHashMap，核心区别是“锁粒度”，效率差异大。

• 通俗理解与原创例子（以“超市收银”类比）：

◦ 第一种：HashTable（全量锁）

◦ 原理：超市只有一个收银台，所有顾客结账（操作 Map）都要排队，一次只能一个人结。底层在 put、get 等方法上加 synchronized 锁，锁住整个哈希表（table 数组）。

◦ 例子：早高峰 10 个顾客排队，只能一个一个结，后面的人等 10 分钟，效率低，但逻辑简单，不会出错。

◦ 第二种：Collections.synchronizedMap（对象锁）

◦ 原理：超市有多个收银台，但只有一个“结账登记本”，顾客结账前要先登记（获取对象锁），结完释放。底层封装普通 Map，用同一个对象锁同步所有操作，本质和 HashTable 类似，只是锁的对象不同。

◦ 例子：10 个顾客还是要排队登记，即使有 5 个收银台，也只能一个一个结，效率没提升。

◦ 第三种：ConcurrentHashMap（细粒度锁，JDK1.8 最优）

◦ 原理：超市每个收银台旁有个“自助锁”，顾客用收银台时，只锁自己的收银台，其他收银台的顾客可同时结。JDK1.7 是“分区锁”（分 16 个收银区，每区一个锁），JDK1.8 是“CAS+synchronized”（没人用就直接结，有人用就等，锁粒度更小）。

◦ 例子：8 个收银台，10 个顾客分 8 组同时结，前 8 个顾客各用一个收银台，后 2 个等有人结完再用，10 个顾客 2 分钟结完，效率比前两种高 5 倍。

九、ConcurrentHashMap 在 JDK1.7 和 JDK1.8 的实现有什么区别？分别怎么保证线程安全？

• 核心区别：JDK1.7 用“分段锁”，JDK1.8 用“CAS+synchronized”，数据结构、锁粒度、效率均不同。

• 通俗理解与原创例子（以“商场结账系统”类比）：

◦ 第一部分：JDK1.7 实现（分段锁）

◦ 数据结构：商场分 16 个“结账区”（Segment 数组），每区有一个“区长”（ReentrantLock 锁），每区有 8 个收银台（HashEntry 数组+链表），收银台放顾客购物车（key-value）。

◦ 线程安全逻辑（put 操作）：

1. 顾客算“结账区编号”（购物车编号 hash 后对 16 取余），比如 5 号区。

2. 找 5 号区区长申请开锁，锁被占用就等（阻塞）。

3. 开锁后，算收银台编号（对 8 取余），放购物车（冲突接链表尾）。

4. 结完找区长解锁，其他区顾客可同时结（16 个区支持 16 线程并发）。

◦ 优点：比 HashTable 效率高；缺点：锁粒度大（一区一锁），结构复杂。

◦ 第二部分：JDK1.8 实现（CAS+synchronized）

◦ 数据结构：商场取消结账区，只有 16 个收银台（Node 数组+链表/红黑树），每个收银台有“自助按钮”（CAS 操作），购物车超 8 个就变“快速收银台”（红黑树）。

◦ 线程安全逻辑（put 操作）：

1. 顾客算收银台编号（购物车 hash 后对 16 取余），比如 3 号台。

2. 3 号台没人，按自助按钮（CAS），按钮亮了就用（原子写入，防并发修改）。

3. 按钮按不亮（有人用），就等前一个顾客结完（对收银台节点加 synchronized 锁）。

4. 购物车超 8 个，收银台自动变快速台，结得更快。

◦ 优点：锁粒度小（收银台级），效率比 1.7 高 30%；结构简单（同 HashMap），维护成本低。

十、HashMap 是有序的吗？如果需要有序的 Map，有哪些选择？它们的有序性有什么区别？

• 核心结论：HashMap 无序（元素位置由 hash 决定，与插入/访问顺序无关）；有序 Map 有 LinkedHashMap 和 TreeMap，前者“按插入/访问顺序有序”，后者“按 Key 大小顺序有序”。

• 通俗理解与原创例子（以“整理手机联系人”类比）：

◦ 第一部分：HashMap 无序

◦ 场景：手机联系人按“姓名拼音 hash”存，“张三”存在“Z”分组，“李四”存在“L”分组，“王五”又存在“Z”分组。想按“添加顺序”找最近加的联系人，得翻遍所有分组；想按“姓名首字母”找，也得一个个看，完全无序。

◦ 第二部分：LinkedHashMap 有序（插入/访问有序）

◦ 场景一：插入有序（按添加顺序）

◦ 逻辑：添加联系人时，按顺序串成“链表”，先加“张三”，再加“李四”，最后加“王五”，链表顺序是“张三→李四→王五”，即使存在不同分组，链表顺序不变。想找最近加的，直接看链表末尾（王五）。

◦ 例子：你想回忆“上周加的 3 个联系人”，不用翻分组，顺着链表按添加顺序看就行。

◦ 场景二：访问有序（按最近查看顺序）

◦ 逻辑：链表初始顺序“张三→李四→王五”，今天看了“李四”，就把“李四”移到链表末尾，顺序变“张三→王五→李四”；明天看了“张三”，顺序变“王五→李四→张三”。

◦ 例子：你经常要联系“最近看的联系人”，直接看链表末尾就行，不用找之前的位置，适合做“最近访问”场景（比如常用联系人排序）。

◦ 第三部分：TreeMap 有序（按 Key 大小顺序）

◦ 场景：联系人按“姓名首字母正序”排序（自然顺序），“李四（L）”在最前，“王五（W）”中间，“张三（Z）”最后，即使先加“张三”，再加“李四”，TreeMap 也会自动排成“李四→王五→张三”。如果想按“首字母倒序”（Z→W→L），可以自定义排序规则（Comparator）。

◦ 例子：你想按“姓名首字母”找联系人，直接按排序顺序翻，不用乱找，适合需要“按 Key 排序”的场景。

十一、LinkedHashMap 是怎么实现有序的？支持哪些有序方式？

• 核心原理：在 HashMap 基础上“维护双向链表”，每个节点（Entry）除了 key、value、next（哈希链表指针），还多了 before（前节点）和 after（后节点），记录双向链表顺序；支持“插入有序”和“访问有序”，通过构造函数的 flag 控制。

• 通俗理解与原创例子（以“整理书架上的书”类比）：

◦ 第一部分：双向链表的作用（实现有序的核心）

◦ 场景：书架有 10 个格子（数组位置），每本书（Entry 节点）的书脊上除了书名（key）、作者（value），还贴了两个标签：“左边的书是谁”（before）和“右边的书是谁”（after）。

◦ 逻辑：所有书通过标签连成双向链表，比如《三体》的 before 是《流浪地球》，after 是《球状闪电》，不管这三本书在 2 号、5 号、2 号格子，链表顺序始终是“《流浪地球》→《三体》→《球状闪电》”。遍历的时候，不用按格子找，顺着链表翻就行，这就是有序的关键。

◦ 第二部分：支持的两种有序方式

◦ 方式一：插入有序（按放书顺序）

◦ 逻辑：你按“买的顺序”放书，先买《流浪地球》放 2 号格，再买《三体》放 5 号格，最后买《球状闪电》放 2 号格，双向链表按“放书顺序”记录：“《流浪地球》→《三体》→《球状闪电》”，格子位置不影响链表顺序。

◦ 例子：你想回忆“最近买的三本书”，不用翻遍书架，顺着链表末尾找就行，和放书顺序完全一致。

◦ 方式二：访问有序（按最近看的顺序）

◦ 逻辑：链表初始顺序“《流浪地球》→《三体》→《球状闪电》”，今天看了《三体》，看完后把它移到链表末尾，顺序变“《流浪地球》→《球状闪电》→《三体》”；明天看了《流浪地球》，再移到末尾，顺序变“《球状闪电》→《三体》→《流浪地球》”。

◦ 例子：你经常要复习“最近看的书”，直接看链表末尾（《流浪地球》），不用找之前放的格子；书架满了想扔书，就扔链表开头的（《球状闪电》，最久没看），这就是 LRU 策略的核心。

◦ 第三部分：关键细节（与 HashMap 的关联）

◦ LinkedHashMap 继承 HashMap，重写了 Entry 节点（加 before/after），还重写了 put 和 get 方法：put 时，除了按 HashMap 逻辑放节点，还把节点加入双向链表；get 时，若开启访问有序，就把访问的节点移到链表末尾，以此保证顺序。

十二、TreeMap 是怎么实现有序的？Key 需要满足什么条件？

• 核心原理：底层基于“红黑树”实现有序，红黑树自动按 Key 大小调整结构，保证遍历有序；Key 必须能“比较大小”，要么实现 Comparable 接口（自然顺序），要么传入 Comparator 接口（自定义顺序），否则报错。

• 通俗理解与原创例子（以“整理电脑文件”类比）：

◦ 第一部分：红黑树的作用（实现有序的核心）

◦ 场景：电脑里有多个文件（Key 是文件名，Value 是文件内容），你想按“文件名长度”排序，方便查找。TreeMap 像“智能文件管理器”，把文件按长度排成红黑树——短文件名放左边，长文件名放右边，树自动调整，保证左边的始终比右边的短。

◦ 逻辑：加“a.txt”（1 位）、“ab.txt”（2 位）、“abc.txt”（3 位），红黑树把“ab.txt”放中间，“a.txt”放左，“abc.txt”放右；再加“abcd.txt”（4 位），树调整后把它放“abc.txt”右边，顺序始终 1→2→3→4。查找时，不用挨个看文件，直接按树结构找（找 3 位文件，先找中间 2 位，再往右找），效率高（O(logn)）。

◦ 第二部分：Key 需要满足的条件（实现比较的前提）

◦ 条件一：Key 实现 Comparable 接口（自然顺序）

◦ 场景：文件名是“1.txt”“2.txt”“3.txt”（Key 是 Integer 类型），Integer 已实现 Comparable 接口，知道按数字大小排序（1<2<3），TreeMap 直接用这个规则，不用你额外操作。

◦ 例子：往 TreeMap 里放（1,"笔记1"）、（3,"笔记3"）、（2,"笔记2"），TreeMap 自动排成 1→2→3，遍历按这个顺序输出，因为 Integer 会自动比大小。

◦ 条件二：传入 Comparator 接口（自定义顺序）

◦ 场景：文件名是“张三.doc”“李四.doc”“王五.doc”（Key 是 String 类型），String 默认按首字母正序排序（L→W→Z），但你想按倒序（Z→W→L），这时候要写一个 Comparator，告诉 TreeMap 按倒序比。

◦ 例子：创建 TreeMap 时传入 new Comparator() { @Override public int compare(String s1, String s2) { return s2.compareTo(s1); } }，TreeMap 就会排成“张三.doc”→“王五.doc”→“李四.doc”，满足自定义需求。

◦ 错误场景：如果 Key 是自定义的“FileInfo”类（只包含文件名和大小，没实现任何接口），往 TreeMap 里放时，会抛出 ClassCastException，因为 TreeMap 不知道怎么给 FileInfo 排序。

◦ 第三部分：关键细节（红黑树的优势）

◦ 红黑树是“平衡二叉搜索树”，自动保持平衡，避免出现“一边倒”（比如所有文件都往左边放，变成链表），保证查找、插入、删除效率都是 O(logn)；普通二叉树可能变成链表，效率降到 O(n)，这也是 TreeMap 选红黑树的原因。

查看全文

http://www.dtcms.com/a/438135.html