27、基于map实现的简易kv数据库
#include <iostream>
#include <map>
#include <string>
#include <fstream>
#include <filesystem>
#include <random>class KvDataBase {
public:std::map<std::string, std::string> data;// 实现 get 方法,通过键获取值。std::string get(const std::string &key) {auto it = data.find(key);if (it != data.end()) {return it->second;}return "";}// 实现 set1 方法,通过键设置值,若键存在则更新值。bool set1(const std::string &key, const std::string &value) {data[key] = value;return true;}// 实现 set2 方法,通过键设置值,若键存在则不更新值。bool set2(const std::string &key, const std::string &value) {auto result = data.insert({key, value});return result.second;}// 实现 del 方法,通过键删除值。bool del(const std::string &key) {return data.erase(key) > 0;}// 实现 serialize 方法,将数据序列化到文件。bool serialize(const std::string &filename) {std::ofstream ofs(filename, std::ios::binary);if (!ofs.is_open()) {return false;}for (const auto &pair: data) {ofs << "<" << pair.first << ", " << pair.second << ">\n";}ofs.close();return true;}// 实现 deserialize 方法,从文件反序列化数据。bool deserialize(const std::string &filename) {std::ifstream ifs(filename, std::ios::binary);if (!ifs.is_open()) {return false;}data.clear();std::string line;while (std::getline(ifs, line)) {if (line.front() == '<' && line.back() == '>') {line = line.substr(1, line.size() - 2); // 去掉尖括号size_t pos = line.find(", ");if (pos != std::string::npos) {std::string key = line.substr(0, pos);std::string value = line.substr(pos + 2);data[key] = value;}}}ifs.close();return true;}KvDataBase() = default;~KvDataBase() = default;
};void test01() {KvDataBase db;db.set1("key1", "value1");db.set2("key2", "value2");std::cout << "key1: " << db.get("key1") << std::endl;db.del("key1");db.set1("key3", "value3");db.set1("key4", "value4");db.set1("key5", "value5");db.set1("key6", "value6");db.set1("key7", "value7");db.set1("key8", "value8");db.set1("key9", "value9");db.set1("key10", "value10");db.set2("key4", "value467");db.serialize("data.txt");db.deserialize("data.txt");std::cout << "key2: " << db.get("key2") << std::endl;std::cout << "key3: " << db.get("key3") << std::endl;std::cout << "key4: " << db.get("key4") << std::endl;return 0;
}void testInsertPerformance(KvDataBase &db) {auto start = std::chrono::high_resolution_clock::now();for (int i = 0; i < 10000000; ++i) {db.set1("key" + std::to_string(i), "value" + std::to_string(i));}auto end = std::chrono::high_resolution_clock::now();std::chrono::duration<double, std::milli> duration = end - start;std::cout << "插入一千万条数据耗时: " << duration.count() << " ms" << std::endl;
}void testRandomGetPerformance(KvDataBase &db) {std::random_device rd;std::mt19937 gen(rd());std::uniform_int_distribution<> dis(0, 9999);auto start = std::chrono::high_resolution_clock::now();for (int i = 0; i < 100; ++i) {db.get("key" + std::to_string(dis(gen)));}auto end = std::chrono::high_resolution_clock::now();std::chrono::duration<double, std::milli> duration = end - start;std::cout << "随机获取100条数据耗时: " << duration.count() << " ms" << std::endl;
}int main() {KvDataBase db;testInsertPerformance(db);testRandomGetPerformance(db);return 0;
}/*
插入一千万条数据耗时: 14353.8 ms , 14.3538 s
随机获取100条数据耗时: 0.3669 ms , 0.0003669 s
*/
为了估算插入1000万条数据大概需要多少内存,我们需要考虑以下几个因素:
-
键和值的大小:假设每个键和值都是固定长度的字符串。
-
std::map
的开销:std::map
是基于红黑树实现的,每个节点包含键、值和指向子节点的指针。
假设每个键和值都是长度为10的字符串(即每个字符串占用10个字符,每个字符1字节),我们可以进行如下估算:
- 每个键和值的大小:10字节 + 10字节 = 20字节
- 每个节点的指针开销:假设每个指针占用8字节(在64位系统上),每个节点有3个指针(左子节点、右子节点和父节点),所以指针开销为3 * 8字节 = 24字节
- 每个节点的总大小:20字节(键和值) + 24字节(指针) = 44字节
因此,插入1000万条数据的总内存开销大约为:
1000万 * 44字节 = 440000000字节 ≈ 419.6 MB
这个估算是一个粗略的近似值,实际内存使用可能会因为其他因素(如内存对齐、额外的元数据等)有所不同。