当前位置：首页 > news >正文

【软考架构】案例分析：MongoDB 如何存储非结构化数据以及其矢量化存储的优点。

news 2025/10/29 7:53:04

我们来详细探讨 MongoDB 如何存储非结构化数据以及其矢量化存储的优点。

MongoDB 如何存储非结构化数据

1. 文档型数据模型

MongoDB 使用 BSON（Binary JSON） 格式来存储文档，这使其天然适合存储非结构化或半结构化数据。

示例：同一集合中的不同结构文档

// 文档1：用户基本信息
{"_id": ObjectId("507f1f77bcf86cd799439011"),"name": "张三","age": 28,"email": "zhang@example.com"
}// 文档2：包含地址信息的用户
{"_id": ObjectId("507f1f77bcf86cd799439012"),"name": "李四","age": 32,"address": {"street": "人民路123号","city": "北京","postalCode": "100000"},"hobbies": ["阅读", "游泳", "摄影"]
}// 文档3：完全不同的结构 - 产品信息
{"_id": ObjectId("507f1f77bcf86cd799439013"),"productName": "智能手机","price": 2999.99,"specifications": {"color": "黑色","storage": "128GB"},"tags": ["电子", "通讯", "数码"]
}

2. 灵活的 Schema 设计

无固定模式：同一集合中的文档可以有完全不同的字段结构
动态字段：可以随时添加新字段，无需修改表结构
嵌套文档：支持复杂的层次化数据结构
数组类型：直接存储数组，无需关联表

3. 存储引擎架构

MongoDB 使用 WiredTiger 存储引擎，其存储结构如下：

文档集合↓
BSON 序列化↓  
WiredTiger 存储层↓  
磁盘文件（数据文件 + 索引文件）

MongoDB 矢量化存储的优点

MongoDB 的 列式存储索引（Columnstore Indexes） 实现了矢量化存储，为分析型查询带来显著性能提升。

1. 矢量化存储原理

传统行存储 vs 列存储：

行存储（文档存储）：
文档1: [name, age, city, salary]
文档2: [name, age, city, salary]
文档3: [name, age, city, salary]列存储（矢量化）：
name列:  [张三, 李四, 王五]
age列:   [28, 32, 45]
city列:  [北京, 上海, 广州]
salary列: [5000, 8000, 12000]

2. 主要优点

① 极高的压缩率

同一列的数据类型相同，压缩效率更高
重复值多的列（如城市、状态）压缩比可达 90%+
减少磁盘 I/O 和内存占用

示例：

// 城市列数据（实际存储时高度压缩）
["北京", "上海", "北京", "广州", "北京", "北京", "上海"...]
// → 使用字典编码：北京=1, 上海=2, 广州=3
// → 存储为：[1, 2, 1, 3, 1, 1, 2...]

② 分析查询性能大幅提升

只读取需要的列，避免全文档扫描
向量化处理：CPU 可以批量处理同一列的数据
更好的缓存利用率

查询示例对比：

// 分析查询：计算各城市的平均薪资
db.sales.aggregate([{ $group: { _id: "$city", avgSalary: { $avg: "$salary" }}}
])// 行存储：需要读取每个完整文档，提取city和salary
// 列存储：只读取city列和salary列，性能提升10-100倍

③ 支持复杂的分析操作

快速执行 SUM、AVG、COUNT、GROUP BY 等聚合操作
优化时间序列数据分析
适合大数据量的报表生成

④ 优化的扫描性能

连续存储同一列数据，顺序读取效率高
减少磁盘寻道时间
支持谓词下推，在扫描时尽早过滤数据

3. 实际应用场景

时间序列数据分析

// 创建列存储索引
db.sensorData.createIndex({ "timestamp": 1 }, { "name": "timeseries_idx","columnstore": true 
})// 高效分析查询：按小时统计平均温度
db.sensorData.aggregate([{$group: {_id: { $dateTrunc: { date: "$timestamp", unit: "hour" }},avgTemperature: { $avg: "$temperature" },maxHumidity: { $max: "$humidity" }}}
])

业务报表生成

// 销售数据分析
db.orders.createIndex({}, { "columnstore": true })db.orders.aggregate([{ $match: { orderDate: { $gte: ISODate("2024-01-01") } } },{$group: {_id: { productCategory: "$category",region: "$region" },totalRevenue: { $sum: "$amount" },orderCount: { $count: {} }}}
])

4. 配置示例

// 创建列存储索引
db.analytics_data.createIndex({ "timestamp": 1, "metric": 1 },{ "name": "columnstore_analytics","columnstore": true,"background": true}
)// 或者作为时间序列集合的一部分
db.createCollection("sensor_readings", {timeseries: {timeField: "timestamp",metaField: "sensorId",granularity: "hours"},columnstore: true  // 启用列存储
})

MongoDB 是典型的 NoSQL 文档型数据库，其数据存储单位为 BSON 文档。相较关系型数据库需要严格的模式定义，MongoDB 无需固定模式，能灵活存储非结构化或半结构化数据，如 JSON 文档、图像元信息、日志、传感器数据等。同时它支持嵌套文档、数组字段与灵活的索引机制，使得数据结构可以与应用场景自然贴合，避免频繁的表结构变更，适应动态性强的业务需求。

总结

特性	传统文档存储	矢量化列存储
数据模型	面向文档，适合事务处理	面向列，适合分析查询
存储效率	存储完整文档，压缩率一般	按列存储，压缩率极高
查询性能	点查询快，分析查询慢	分析查询极快，点查询较慢
适用场景	OLTP、实时操作	OLAP、报表分析、大数据处理
I/O效率	读取不需要的字段	只读取需要的列

MongoDB 的强大之处在于它同时支持两种存储模式：

文档存储用于日常的 CRUD 操作
列存储索引用于复杂的数据分析
这种混合架构使其既能处理非结构化数据的灵活性，又能提供分析型查询的高性能。

在矢量化存储方面，MongoDB 支持将高维特征向量（如文本 embedding、图像特征向量）直接存储为字段，并结合向量索引机制实现快速的相似度检索。这在推荐系统、图像搜索、自然语言处理等场景下具有明显优势。例如，将用户兴趣向量存储后，可通过向量相似度检索找到最相关的内容，提升系统智能化水平。其优势在于兼容分布式架构、高性能搜索、适配 AI 场景。
MongoDB 矢量化存储适用于系统架构设计、AI 应用、数据库选型等多种场景。矢量化存储是指将高维特征（如图像特征、文本 embedding 向量、音频信号等）以数组的形式存入数据库中，并能基于相似度进行高效检索的能力。

例如：将一张图片的 ResNet （有兴趣可去了解）向量 [0.01, 0.52, -0.33, …] 存入数据库，支持找出与某张图片最相似的其他图片。MongoDB 可将向量（通常是 float[]）作为字段直接存储在文档中。

为何列存储点查询较慢？

好的，我来详细解释在列存储（矢量化存储）中 “点查询较慢” 的具体含义。

什么是点查询？

点查询 是指通过特定键值精确查找单个或少量记录的查询。

典型点查询示例：

// 通过主键查找
db.users.find({ "_id": ObjectId("507f1f77bcf86cd799439011") })// 通过唯一标识查找
db.products.find({ "sku": "IPHONE-15-PRO-256" })// 通过组合键精确查找
db.orders.find({ "orderId": "ORD-2024-001", "customerId": "CUST-12345" 
})

为什么列存储中点查询较慢？

1. 数据存储方式对比

行存储（文档存储）

磁盘布局：
[文档1完整数据][文档2完整数据][文档3完整数据]...
↑
直接定位到文档位置，一次读取获取所有字段

列存储（矢量化）

磁盘布局：
姓名列：[张三,李四,王五,...]    ← 需要扫描
年龄列：[28,32,45,...]        ← 需要扫描  
城市列：[北京,上海,广州,...]    ← 需要扫描
↑ ↑ ↑
需要从多个列文件中分别读取并组合

2. 具体性能瓶颈

① 多列文件扫描

// 查询：查找用户ID为 "user_123" 的完整信息
// 列存储需要：
- 扫描 ID 列，找到 "user_123" 的位置索引（比如第 54231 行）
- 到姓名列的第 54231 个位置读取姓名
- 到年龄列的第 54231 个位置读取年龄  
- 到邮箱列的第 54231 个位置读取邮箱
- ...
// 涉及多次磁盘寻道和读取操作

② 数据重组开销

// 行存储：直接返回找到的完整文档
{"_id": "user_123","name": "张三","age": 28,"email": "zhang@example.com","address": {...}
}// 列存储：需要从多个列中提取并重新组装
从ID列获取 → "user_123"
从name列获取 → "张三"  
从age列获取 → 28
从email列获取 → "zhang@example.com"
从address列获取 → {...}
// 然后组合成完整文档返回

③ 索引效率差异

虽然列存储也可以建索引，但索引指向的是行位置，仍需跨多个列文件读取数据。

实际性能对比示例

测试场景：在1000万用户中查找特定用户

行存储性能

// 查询执行计划（理想情况）
db.users.find({"_id": "user_123456"}).explain()// 性能特征：
// - 通过B-tree索引直接定位文档物理位置
// - 1次磁盘读取获取完整文档
// - 响应时间：~1-5ms

列存储性能

// 查询执行计划
db.users.find({"_id": "user_123456"}).explain()// 性能特征：
// - 通过索引找到行位置（如第54231行）
// - 分别读取10个列文件中的第54231个值
// - 内存中组合成完整文档
// - 响应时间：~10-50ms（慢5-10倍）

什么时候列存储的点查询特别慢？

1. 需要返回多列数据时

// 这种查询在列存储中很慢
db.employees.find({"employeeId": "EMP-001"
})// 因为要返回所有字段：姓名、部门、薪资、联系方式等

2. 需要返回完整文档时

// 相当于 SELECT * WHERE id = ?
db.collection.find({"_id": someId})
// 列存储需要读取所有列文件

3. 随机点查询模式

// 大量随机的主键查询
for (let i = 0; i < 1000; i++) {db.users.find({"_id": randomIds[i]})
}
// 每次查询都要跨多个列文件读取

列存储的优化策略

1. 使用投影减少返回字段

// 慢：返回完整文档
db.sales.find({"transactionId": "TXN-001"})// 快：只返回需要的列
db.sales.find({"transactionId": "TXN-001"},{"amount": 1, "date": 1, "_id": 0}  // 只读取3个列文件
)

2. 批量点查询优化

// 慢：逐个查询
db.users.find({"_id": "user1"})
db.users.find({"_id": "user2"})
db.users.find({"_id": "user3"})// 较快：使用$in批量查询
db.users.find({"_id": {"$in": ["user1", "user2", "user3"]}
})
// 可以批量读取列数据，减少寻道开销

3. 混合存储策略

// 热数据使用行存储，冷数据分析使用列存储
// 实时查询 → 行存储集合
db.users_realTime.find({"_id": "user123"})// 分析查询 → 列存储集合  
db.users_analytics.aggregate([{$group: {_id: "$city", avgAge: {$avg: "$age"}}}
])

总结

查询类型	行存储性能	列存储性能	原因
点查询（返回完整文档）	⭐⭐⭐⭐⭐ 极快	⭐⭐ 较慢	列存储需要跨多个文件读取
点查询（返回少量列）	⭐⭐⭐⭐ 快	⭐⭐⭐ 中等	列存储只需读取部分列文件
分析查询（聚合、统计）	⭐⭐ 较慢	⭐⭐⭐⭐⭐ 极快	列存储只需扫描相关列
范围查询	⭐⭐⭐ 中等	⭐⭐⭐⭐ 快	列存储顺序读取效率高

关键结论：

列存储为分析型工作负载优化，牺牲了点查询性能
如果应用主要是OLTP事务（大量点查询），行存储更合适
如果主要是OLAP分析（聚合、报表），列存储优势明显
MongoDB的灵活性允许根据业务场景选择合适的存储方式

一个完整的 MongoDB 列存储案例和配置示例

案例背景：电商用户行为分析平台

业务需求

一个大型电商平台需要分析用户的浏览、点击、购买行为，用于：

用户画像分析
推荐系统优化
营销活动效果评估
业务报表生成

数据特点

每天产生 1亿+ 用户行为事件
数据包含多种事件类型（浏览、搜索、加购、购买等）
需要保留 90 天数据用于分析
查询以分析型为主，很少点查询

方案一：使用时间序列集合 + 列存储

1. 创建时间序列集合

// 创建时间序列集合，自动优化存储和查询
db.createCollection("user_events", {timeseries: {timeField: "timestamp",        // 时间字段metaField: "userId",           // 元数据字段（用户ID）granularity: "hours"           // 时间粒度},expireAfterSeconds: 7776000,     // 90天后自动过期 (90*24*60*60)columnstore: true                // 启用列存储优化
});

2. 插入测试数据

// 批量插入用户行为数据
db.user_events.insertMany([{timestamp: new Date("2024-01-15T10:30:00Z"),userId: "user_001",eventType: "page_view",page: "/products/iphone-15",sessionId: "sess_abc123",device: "mobile",duration: 45,referrer: "https://www.google.com"},{timestamp: new Date("2024-01-15T10:32:00Z"), userId: "user_001",eventType: "add_to_cart",page: "/products/iphone-15",productId: "prod_iphone15_128",price: 5999,sessionId: "sess_abc123",device: "mobile"},{timestamp: new Date("2024-01-15T10:35:00Z"),userId: "user_002", eventType: "search",query: "wireless headphones",filters: {"brand": "Sony", "price_range": "100-500"},sessionId: "sess_def456",device: "desktop"}
]);

3. 创建列存储索引

// 为分析查询创建列存储索引
db.user_events.createIndex({ "timestamp": 1 },{name: "analytics_columnstore_idx",columnstore: {// 包含常用分析字段includedFields: ["eventType", "page", "productId", "price", "device"],// 排除不常用于分析的字段  excludedFields: ["sessionId", "referrer"]},background: true  // 后台构建，不影响业务}
);

方案二：普通集合的列存储配置

如果不想使用时间序列集合，也可以在普通集合上配置列存储：

// 创建普通集合
db.createCollection("user_events_standard");// 插入数据后创建列存储索引
db.user_events_standard.createIndex({ "timestamp": 1 },{name: "standard_columnstore_idx", columnstore: {includedFields: ["eventType", "userId", "page", "productId", "price", "device"],compression: "zstd"  // 使用ZSTD压缩算法},background: true}
);

实际分析查询示例

1. 用户行为漏斗分析

// 分析从浏览到购买的转化率
db.user_events.aggregate([{$match: {timestamp: {$gte: ISODate("2024-01-01T00:00:00Z"),$lt: ISODate("2024-01-16T00:00:00Z")},eventType: { $in: ["page_view", "add_to_cart", "purchase"] }}},{$group: {_id: {userId: "$userId",eventType: "$eventType"},count: { $sum: 1 }}},{$group: {_id: "$_id.eventType",uniqueUsers: { $sum: 1 },totalEvents: { $sum: "$count" }}},{$sort: { "_id": 1 }}
]);

2. 热门商品分析

// 统计最受欢迎的商品
db.user_events.aggregate([{$match: {timestamp: {$gte: ISODate("2024-01-01T00:00:00Z"),$lt: ISODate("2024-01-16T00:00:00Z")},eventType: "page_view",productId: { $exists: true }}},{$group: {_id: "$productId",viewCount: { $sum: 1 },uniqueUsers: { $addToSet: "$userId" }}},{$project: {productId: "$_id",viewCount: 1,uniqueUserCount: { $size: "$uniqueUsers" },_id: 0}},{$sort: { viewCount: -1 }},{$limit: 10}
]);

3. 设备类型分析

// 分析不同设备的用户行为
db.user_events.aggregate([{$match: {timestamp: {$gte: ISODate("2024-01-01T00:00:00Z"),$lt: ISODate("2024-01-16T00:00:00Z")}}},{$group: {_id: {device: "$device",eventType: "$eventType"},eventCount: { $sum: 1 },avgDuration: { $avg: "$duration" }}},{$group: {_id: "$_id.device",events: {$push: {eventType: "$_id.eventType",count: "$eventCount",avgDuration: "$avgDuration"}},totalEvents: { $sum: "$eventCount" }}},{$sort: { totalEvents: -1 }}
]);

性能监控和优化

1. 查看索引使用情况

// 检查列存储索引的使用统计
db.user_events.aggregate([{ $indexStats: {} }
]);// 或者使用 explain 查看查询计划
db.user_events.explain("executionStats").aggregate([{ $match: { eventType: "purchase" } },{ $group: { _id: "$device", total: { $sum: "$price" } } }
]);

2. 存储空间监控

// 查看集合存储统计
db.user_events.stats();// 查看索引大小
db.user_events.totalIndexSize();

3. 查询性能调优

// 对于复杂分析，可以使用 allowDiskUse
db.user_events.aggregate([// 复杂的聚合管道
], { allowDiskUse: true });// 使用 hint 强制使用列存储索引
db.user_events.aggregate([{ $match: { timestamp: { $gte: ISODate("2024-01-01") } } }
]).hint("analytics_columnstore_idx");

部署配置建议

1. 分片集群配置（应对大数据量）

// 启用分片
sh.enableSharding("analytics_db");// 基于时间范围分片
sh.shardCollection("analytics_db.user_events", { "timestamp": 1, "userId": 1 },{ timeseries: { timeField: "timestamp",metaField: "userId" } }
);

2. 硬件资源配置

# mongod 配置示例
storage:wiredTiger:engineConfig:# 为列存储分配更多缓存cacheSizeGB: 32collectionConfig:# 优化压缩blockCompressor: zstdindexConfig:# 索引压缩prefixCompression: true# 启用监控
operationProfiling:mode: slowOpslowOpThresholdMs: 100