当前位置: 首页 > news >正文

DuckDB + Spring Boot + MyBatis 构建高性能本地数据分析引擎

DuckDB 是一款令人兴奋的内嵌式分析型数据库 (OLAP),它为本地数据分析和处理带来了前所未有的便捷与高效 🚀。它无需外部服务器,可以直接在应用程序进程中运行,并提供了强大的 SQL 支持和列式存储带来的高性能。


什么是 DuckDB? 🦆

DuckDB 被誉为“数据科学领域的 SQLite”,是一个开源的、专为分析查询设计的嵌入式数据库管理系统。它与传统的行式数据库(如 SQLite,主要用于事务处理 OLTP)不同,DuckDB 采用列式存储向量化查询执行引擎,这使得它在处理聚合、扫描和复杂分析查询时速度极快。

核心特性:

  • • 内嵌式 (In-Process): 无需单独的服务器进程,直接作为库链接到宿主应用程序中。

  • • 分析型 (OLAP): 专为分析查询优化,而非高并发事务处理。

  • • SQL 友好: 提供丰富且标准的 SQL 接口,支持复杂查询、窗口函数等。

  • • 列式存储: 数据按列存储,分析查询通常只涉及部分列,大大减少 I/O。

  • • 向量化执行: CPU 一次处理一批数据(向量),而不是一条一条处理,效率更高。

  • • 快速数据导入/导出: 能高效读写常见数据格式,如 CSV, Parquet, JSON。

  • • 事务支持 (ACID): 保证数据操作的原子性、一致性、隔离性和持久性。

  • • 易于安装和使用: 通常是一个单一的文件或库,依赖少。

  • • 丰富的 API: 提供 C/C++, Python, Java (JDBC), R, Node.js, Go, Rust 等语言的接口。


为什么要选择 DuckDB?

在以下场景中,DuckDB 表现出色:

  • • 本地数据分析与探索: 直接在本地机器上对 CSV, Parquet 等文件进行快速 SQL 查询和分析,无需导入到大型数据库。

  • • 嵌入式分析: 将分析能力直接嵌入到应用程序中,例如在 Web 应用中提供报表或数据可视化功能。

  • • ETL 替代方案: 对于中小型数据集,可以用 DuckDB 替代复杂的 ETL 工具,进行数据转换和清洗。

  • • 教学与原型验证: 学习 SQL 和数据库概念的绝佳工具,也适合快速验证数据处理逻辑。

  • • 交互式数据应用: 例如,构建一个允许用户通过 SQL 查询本地数据集的桌面应用。


Spring Boot + MyBatis 集成 DuckDB 教程 ☕

将 DuckDB 与流行的 Java Web 框架 Spring Boot 和持久层框架 MyBatis 集成起来非常简单,可以让你在 Java 应用中方便地利用 DuckDB 的强大功能。

1. 添加依赖 (Maven)

在你的 pom.xml 文件中添加以下依赖:

<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-jdbc</artifactId></dependency><dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>3.0.3</version> </dependency><dependency><groupId>org.duckdb</groupId><artifactId>duckdb_jdbc</artifactId><version>0.10.2</version> </dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope></dependency>
</dependencies>

注意:请务必检查 DuckDB JDBC 驱动和 MyBatis Spring Boot Starter 的最新版本。

2. 配置数据源

在 src/main/resources/application.properties (或 .yml) 文件中配置数据源:

# DuckDB DataSource Configuration
# 使用文件持久化:
spring.datasource.url=jdbc:duckdb:mydatabase.duckdb
# 或者使用内存模式 (每次重启数据丢失):
# spring.datasource.url=jdbc:duckdb:
spring.datasource.driver-class-name=org.duckdb.DuckDBDriver
# DuckDB 本地文件或内存模式通常不需要用户名和密码
# spring.datasource.username=
# spring.datasource.password=# MyBatis Configuration
mybatis.mapper-locations=classpath:mapper/*.xml
mybatis.configuration.map-underscore-to-camel-case=true
  • • jdbc:duckdb:mydatabase.duckdb 会在项目根目录下(或指定路径)创建/使用一个名为 mydatabase.duckdb 的数据库文件。

  • • jdbc:duckdb: (或 jdbc:duckdb::memory:) 会使用纯内存数据库,速度最快,但数据不会持久化。

3. 创建实体类 (可选,但推荐)

package com.example.duckdbdemo.model;public class Product {private Integer id;private String name;private Double price;// Getters and Setterspublic Integer getId() { return id; }public void setId(Integer id) { this.id = id; }public String getName() { return name; }public void setName(String name) { this.name = name; }public Double getPrice() { return price; }public void setPrice(Double price) { this.price = price; }@Overridepublic String toString() {return "Product{" +"id=" + id +", name='" + name + '\'' +", price=" + price +'}';}
}

4. 创建 MyBatis Mapper 接口

package com.example.duckdbdemo.mapper;import com.example.duckdbdemo.model.Product;
import org.apache.ibatis.annotations.*;import java.util.List;@Mapper
public interface ProductMapper {@Update("CREATE TABLE IF NOT EXISTS products (id INTEGER PRIMARY KEY, name VARCHAR, price DECIMAL(10, 2))")void createTable();@Insert("INSERT INTO products (id, name, price) VALUES (#{id}, #{name}, #{price})")void insert(Product product);@Select("SELECT id, name, price FROM products WHERE id = #{id}")Product findById(Integer id);@Select("SELECT id, name, price FROM products")List<Product> findAll();@Select("SELECT COUNT(*) FROM products")int count();
}
  • • @Mapper 注解使其能被 Spring Boot 自动扫描到。

  • • 我们在这里添加了一个 createTable 方法,用于在应用启动时(如果表不存在)创建表。

5. 创建服务和示例用法

package com.example.duckdbdemo.service;import com.example.duckdbdemo.mapper.ProductMapper;
import com.example.duckdbdemo.model.Product;
import jakarta.annotation.PostConstruct;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;import java.util.List;@Service
public class ProductService {private static final Logger log = LoggerFactory.getLogger(ProductService.class);private final ProductMapper productMapper;@Autowiredpublic ProductService(ProductMapper productMapper) {this.productMapper = productMapper;}@PostConstruct // 在依赖注入完成后执行public void init() {log.info("Initializing ProductService...");productMapper.createTable(); // 创建表(如果不存在)log.info("Products table checked/created.");if (productMapper.count() == 0) {log.info("No products found, inserting sample data...");Product p1 = new Product();p1.setId(1);p1.setName("DuckDB Super Book");p1.setPrice(29.99);productMapper.insert(p1);Product p2 = new Product();p2.setId(2);p2.setName("Quacky IDE Extension");p2.setPrice(15.50);productMapper.insert(p2);log.info("Sample data inserted.");}}public Product getProductById(Integer id) {return productMapper.findById(id);}public List<Product> getAllProducts() {return productMapper.findAll();}
}

6. 运行和测试

创建一个 Spring Boot 主应用类:

package com.example.duckdbdemo;import com.example.duckdbdemo.model.Product;
import com.example.duckdbdemo.service.ProductService;
import org.springframework.boot.CommandLineRunner;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.annotation.Bean;@SpringBootApplication
public class DuckdbDemoApplication {public static void main(String[] args) {SpringApplication.run(DuckdbDemoApplication.class, args);}@BeanCommandLineRunner runner(ProductService productService) {return args -> {System.out.println("Fetching product with ID 1:");Product product1 = productService.getProductById(1);System.out.println(product1);System.out.println("\nFetching all products:");productService.getAllProducts().forEach(System.out::println);};}
}

运行 DuckdbDemoApplication,你将在控制台看到 DuckDB 被初始化,表被创建,数据被插入和查询的结果。


DuckDB 使用注意事项

  • • 并发性: DuckDB 对于单个持久化数据库文件是单写入者/多读取者模型。这意味着多个连接可以同时读取数据,但只有一个连接可以在特定时间点写入数据。对于内存数据库 (:memory:),每个连接默认获得一个独立的私有数据库。这使其非常适合分析查询和嵌入式场景,但不适合需要高并发写入的传统 OLTP 应用。

  • • 驱动版本: 确保 DuckDB JDBC 驱动版本与你的需求和 DuckDB 的特性兼容。

  • • 内存使用: 虽然 DuckDB 很高效,但复杂的分析查询仍然可能消耗大量内存,尤其是在处理大数据集时。

  • • 文件路径: 当使用文件持久化的 DuckDB 时,确保 JDBC URL 中的路径对于应用程序是可写可读的。


总结 🌟

DuckDB 以其高性能、易用性和内嵌式的特点,为数据分析领域带来了新的活力。通过与 Spring Boot 和 MyBatis 的简单集成,Java 开发者可以轻松地将 DuckDB 的强大分析能力引入到自己的应用程序中,无论是用于本地数据处理、嵌入式分析报表,还是快速原型开发,DuckDB 都是一个值得尝试的优秀工具。它使得在应用程序中直接运行复杂的 SQL 分析查询变得前所未有地简单和高效。

相关文章:

  • day 44
  • 深入解析FutureTask:原理与实战
  • 【从0-1的HTML】第3篇:html引入css的3种方式
  • Golang——7、包与接口详解
  • Redisson - 实现延迟队列
  • DAY43 复习日
  • 压测软件-Jmeter
  • MySQL 9.0 相较于 MySQL 8.0 引入了多项重要改进和新特性
  • 机器学习基础(四) 决策树
  • 时序数据库IoTDB与EdgeX Foundry集成适配服务介绍
  • 记一次运行spark报错
  • 使用 Ansys Q3D 进行电容提取
  • 离散化思想
  • C++初阶 | 模板
  • 黑枸杞成分对抗结肠炎:微生物组学视角下的新发现与突破
  • matlab实现高斯烟羽模型算法
  • 【C语言】通用统计数据结构及其更新函数(最值、变化量、总和、平均数、方差等)
  • ABP-Book Store Application中文讲解 - Part 8: Authors: Application Layer
  • 苹果企业签名撤销
  • powershell 查当前用户和域名
  • 做域名交易网站/google国际版
  • mac可以做网站服务器吗/信息如何优化上百度首页公司
  • 外汇做单记录做单专业网站有哪些/全网推广代理
  • 上海浦东建筑建设网站污水处理工程/新网站排名优化怎么做
  • 微信赌博链接网站建设/免费代理浏览网页
  • 深圳响应式网站公司/报个计算机培训班多少钱