当前位置: 首页 > news >正文

数据库与存储优化

一、MySQL深度优化
  1. 索引优化

    • B+树索引结构

      • 结构特点
        • 平衡多路搜索树,所有数据存储在叶子节点,非叶子节点仅存键值和指针。
        • 叶子节点通过双向链表连接,支持范围查询高效遍历。
      • 优势
        • 减少磁盘IO(高扇出,3~4层可存储千万级数据)。
        • 适合范围查询(如WHERE id BETWEEN 100 AND 200)。
    • 覆盖索引

      • 定义:索引包含查询所需的所有字段,无需回表。
      • 示例
        -- 创建覆盖索引 
        CREATE INDEX idx_cover ON user(name, age); 
        -- 查询命中覆盖索引 
        SELECT name, age FROM user WHERE name = 'Alice';

    • 索引下推(ICP)

      • 原理:在存储引擎层过滤数据,减少回表次数。
      • 触发条件
        • 查询条件包含索引列和非索引列。
        • 需在WHERE子句中使用索引前缀。
      • 查看ICP优化
        EXPLAIN SELECT * FROM user WHERE name = 'Alice' AND age > 20; 
        
        -- Extra列显示"Using index condition"

  2. 锁机制

    • 意向锁(Intention Locks)

      • 作用:快速判断表中是否存在行级锁,避免全表扫描。
      • 类型
        • 意向共享锁(IS):事务准备加行级共享锁。
        • 意向排他锁(IX):事务准备加行级排他锁。
    • 间隙锁(Gap Locks)

      • 功能:锁定索引记录间的间隙,防止幻读(Phantom Read)。
      • 示例
        -- 对id范围(5,10)加间隙锁 
        SELECT * FROM user WHERE id > 5 AND id < 10 FOR UPDATE;

    • 死锁排查

      • 步骤
        1. 执行SHOW ENGINE INNODB STATUS,查看LATEST DETECTED DEADLOCK
        2. 分析WAITING FOR THIS LOCKHOLDS THE LOCK信息。
      • 解决
        • 调整事务顺序,缩短事务时间。
        • 使用innodb_deadlock_detect = ON(默认开启)自动检测。
  3. 分库分表

    • ShardingSphere分片策略
      • 取模分片user_id % 4,数据均匀分布,但扩容需迁移数据。
      • 范围分片:按时间或ID范围分片,易导致数据倾斜。
      • 基因法路由
        • 原理:将关联数据(如订单和订单明细)的基因值(如用户ID哈希)嵌入分片键,确保关联查询在同一分片。
        • 示例
          -- 订单表分片键 = user_id % 8 
          -- 订单明细表分片键 = (order_id的基因部分) % 8


二、大数据存储优化
  1. HBase

    • LSM树结构

      • 写入流程
        1. 数据先写入内存(MemStore)。
        2. MemStore满后刷写到磁盘(HFile)。
        3. 后台合并(Compaction)HFile,减少文件数。
      • 优势:高吞吐写入,适合时序数据。
    • Region分裂机制

      • 触发条件:Region大小超过阈值(默认10GB)。
      • 分裂策略
        • IncreasingToUpperBound:动态调整分裂阈值。
        • Disabled:手动控制分裂。
    • RowKey设计

      • 原则
        • 散列化:避免热点(如MD5(user_id).substr(0,4) + user_id)。
        • 有序性:时间戳反转(Long.MAX_VALUE - timestamp)。
      • 示例
        RowKey = 盐值(4位) + 用户ID + 时间戳反转

  2. Elasticsearch

    • 倒排索引

      • 结构:词项(Term) → 文档ID列表。
      • 优化
        • 使用keyword类型避免分词开销。
        • 合并段(Force Merge)减少查询时的段数量。
    • 分词器原理

      • 标准分词器:按空格和标点切分,过滤停用词。
      • IK分词器
        • ik_smart:粗粒度切分(如“清华大学” → “清华大学”)。
        • ik_max_word:细粒度切分(如“清华大学” → “清华”,“大学”)。
      • 自定义词典
        PUT /my_index
        {
          "settings": {
            "analysis": {
              "analyzer": {
                "my_ik": {
                  "type": "custom",
                  "tokenizer": "ik_max_word",
                  "filter": ["my_stopwords"]
                }
              },
              "filter": {
                "my_stopwords": {
                  "type": "stop",
                  "stopwords": ["的", "是"]
                }
              }
            }
          }
        }
        

    • DSL优化技巧

      • 避免深分页:使用search_after代替from/size
      • 过滤器上下文:将term查询放入filter,利用缓存。
      • 冷热数据分离:按时间范围分索引,热数据使用SSD存储。
      GET /logs-2023/_search
      {
        "query": {
          "bool": {
            "filter": [
              { "range": { "@timestamp": { "gte": "now-1d/d" }}}
            ]
          }
        },
        "sort": [{"@timestamp": "desc"}],
        "size": 10,
        "search_after": [1698765432000]
      }
      


三、总结与实战建议
  • MySQL优化重点

    • 索引设计遵循最左前缀原则,避免冗余索引。
    • 分库分表优先考虑基因法路由,减少跨分片查询。
  • HBase核心实践

    • RowKey设计需平衡散列与查询需求。
    • 预分区(Pre-split)避免自动分裂带来的性能波动。
  • Elasticsearch调优

    • 使用_bulk接口批量写入,提升吞吐量。
    • 定期清理旧索引,结合ILM(索引生命周期管理)自动化。

通过结合业务场景选择合适的存储方案,并持续监控关键指标(如MySQL的QPS、Elasticsearch的段合并频率),可显著提升系统性能和稳定性。

相关文章:

  • [Computer Vision]实验八:图像分割
  • RxJS与Redux革命性协同:打造高效、解耦的前端状态管理方案
  • Lab 3 Page Table
  • Linux系统基于ARM平台的LVGL移植
  • 深度学习语义分割数据集全景解析
  • 物理机、虚拟机、容器化怎么选择?
  • JT1078和GB28181差别在哪里?
  • C++(初阶)(二)——类和对象
  • 文件 IO
  • 豆包大模型 MarsCode AI 刷题专栏 001
  • Kotlin协程(六)Flow流
  • 掌握高效大模型任务流搭建术(二):链式流程如何赋能 AI 处理能力提升
  • Chapter 1 Introduction
  • qt open3dAlpha重建
  • proto3语法
  • 修改git fetch后引用没更新
  • 1493. 删掉一个元素以后全为 1 的最长子数组
  • Redis - 核心原理深度解析:线程模型、持久化与高可用性
  • TensorFlow深度学习实战(10)——迁移学习详解
  • Swagger UI界面的使用
  • 优质文化资源下基层,上海各区优秀群文团队“文化走亲”
  • 铜川耀州窑遗址内违法矿场存在多年,省市区文物部门多次处罚叫停仍在生产
  • 中国纪检监察刊文:力戒形式主义官僚主义关键是要坚持实事求是
  • 贵州仁怀通报“正新鸡排鸡腿里全是蛆”:已对同类产品封存送检
  • 人民日报:从“轻微免罚”看涉企执法方式转变
  • 美国务院批准向土耳其出售导弹及相关部件,价值3.04亿美元