当前位置: 首页 > news >正文

java循环分页查询数据,任何把查询到的数据,分批处理,多线程提交到数据库清洗数据

while循环分页查询数据,任何把查询到的数据,分批多线程提交到数据库清洗数据,具体实现如下

  • 分页循环:使用while循环逐页获取订单数据(每页1000条)。 分批处理:将每页数据拆分为每批10条的小批次。
  • 多线程执行:通过ExecutorService提交任务,使用线程池并发处理每个批次。
  • 延迟控制:在提交每批次任务后,主线程等待200毫秒再提交下一批任务,确保批次提交间隔。

以下是完善后的代码实现,使用 List<Future<?>> 收集任务,并通过 for 循环逐批提交任务,同时控制提交间隔为200ms:

完善后的代码

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.*;public class OrderProcessor {private static final int THREAD_POOL_SIZE = 10; // 根据业务调整线程池大小private static final int BATCH_SIZE = 10; // 每批处理10条数据public void processOrders() {int currentPage = 1;int pageSize = 1000; // 每页1000条ExecutorService threadPool = ThreadPoolFactory.getThreadPool(); // 从工厂获取线程池while (true) {List<Order> currentPageData = queryOrders(currentPage, pageSize);if (currentPageData.isEmpty()) {break;}// 将当前页数据拆分为每批10条的列表List<List<Order>> splitBatchs = splitDataIntoBatches(currentPageData, BATCH_SIZE);// 使用Future列表管理任务List<Future<?>> futureList = new ArrayList<>();for (List<Order> batch : splitBatchs) {Future<?> future = threadPool.submit(() -> processBatch(batch));futureList.add(future);try {Thread.sleep(200); // 主线程等待200ms再提交下一批任务} catch (InterruptedException e) {Thread.currentThread().interrupt();throw new RuntimeException("线程被中断", e);}}// 等待当前页所有任务完成(可选)for (Future<?> future : futureList) {try {future.get(); // 等待任务完成并处理可能的异常} catch (Exception e) {// 处理任务执行异常e.printStackTrace();}}currentPage++;}threadPool.shutdown();}// 拆分数据为批次private List<List<Order>> splitDataIntoBatches(List<Order> data, int batchSize) {List<List<Order>> batches = new ArrayList<>();for (int i = 0; i < data.size(); i += batchSize) {batches.add(data.subList(i, Math.min(i + batchSize, data.size())));}return batches;}// 处理每个批次的业务逻辑private void processBatch(List<Order> batch) {// 业务逻辑(如保存到历史快照表)saveToSnapshotTable(batch);}// 假设的查询方法private List<Order> queryOrders(int page, int size) {// 实现分页查询逻辑(通过框架如MyBatis/Spring Data JPA)return new ArrayList<>();}// 保存到历史表(依赖框架的DAO/Repository)private void saveToSnapshotTable(List<Order> batch) {// 使用框架提供的DAO或Repository执行批量插入}
}

关键点说明

  1. 线程池获取:
    • 使用 ThreadPoolFactory.getThreadPool() 替换直接创建线程池,确保与框架整合(如Spring的线程池管理)。
  2. Future列表管理:
    • 将每个任务的 Future 对象存入 futureList,便于后续统一处理任务结果或异常。
  3. 批次提交间隔:
    • 在 for 循环中,每提交一个批次后调用 Thread.sleep(200),确保主线程等待200ms后提交下一批任务。
  4. 任务等待与异常处理:
    • 可选择性调用 future.get() 等待任务完成(如需保证顺序或处理异常)。

注意事项

  1. 线程安全:
    • 确保 saveToSnapshotTable 等业务方法是线程安全的(例如使用框架的事务注解 @Transactional)。
  2. 性能优化:
    • 根据实际压力调整线程池大小(THREAD_POOL_SIZE),避免资源竞争。
  3. 异常处理:
    • 在 future.get() 中捕获 ExecutionException 和 InterruptedException,并根据需求重试或记录日志。
  4. 框架集成:
    • 若使用Spring,可通过 @Async 注解简化异步任务提交,但需结合自定义线程池。
    此方案兼顾了分页处理和多线程效率,同时通过 Future 管理任务状态,确保逻辑可控。
http://www.dtcms.com/a/330258.html

相关文章:

  • 第十二节:粒子系统:海量点渲染
  • 远程办公,如何轻松访问公司内网?出差在外也能远程控制局域网内电脑、外网直接连接到指定端口应用
  • 基于通用优化软件GAMS的数学建模和优化分析(GAMS安装和介绍、GAMS程序编写、GAMS程序调试)
  • Ubuntu22.04轻松安装Qt与OpenCV库
  • 【力扣】面试经典150题总结02-双指针、滑动窗口
  • Kubernetes 网络排错
  • 《嵌入式Linux应用编程(四):Linux Framebuffer图形编程》
  • 数学建模算法-day[17]
  • 【Spring Ai框架】
  • CMake笔记:配置(Configure)、生成(Generate)和构建(Build)
  • 软件架构重构:从混沌到有序的系统性演进
  • 第6节 torch.nn介绍
  • 什么是脏读、幻读、不可重复读?
  • linux编程----文件(framebuffer)
  • 正则表达式解析(三)
  • 方法论基础。
  • 与Deepseek对话了解无线电通信知识
  • 自动曝光算法参考
  • Linux Framebuffer(帧缓冲)与基本 UI 绘制技术
  • GitHub宕机时的协作方案
  • 力扣 hot100 Day72
  • Transformer开端
  • 有效涂色问题-二维dp
  • C++进阶之lambda三种回调方式性能差异(四百二十七)
  • 【13】Transformers快速入门:Transformers 分词器 (Tokenizer) 实战?
  • 哈希表之两个数组的交集(leetcode349)
  • 智能合约开发全流程实战指南
  • 【LeetCode】4. 寻找两个正序数组的中位数
  • 芯伯乐300kHz降压DC/DC转换器XBL4005:4.5V~40V宽电压范围,5A大电流高效输出
  • 三伍微电子GSR2406 IoT FEM 2.4G PA 射频前端模组芯片