当前位置: 首页 > news >正文

【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】A题解题全流程(持续更新)

【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】A题解题全流程-思路(持续更新)

写在前面:

1、A题、C题将会持续更新,陆续更新发布文章

2、赛题交流咨询Q群:1037590285

3、全家桶依旧包含:

  • 代码、
  • 数据集、
  • 模型、
  • 论文、
  • 教学视频、
  • 服务器镜像分享(无需搭建环境和下载模型)、
  • 售后服务
  • 赠品成品系统(基于大模型pdf提取系统)可用做毕设

一、解题思路

实现技术: RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat

总体思路概述:

  • 问题一:版面分析对pdf每一页进行布局分析,结合ocr、多模态大模型进行内容信息提取,处理细节解决问题。保存正文内容、图片、公式入库储存用于后续任务。
  • 问题二:本地构建部署Qwen2.5-7B-chat进行调用,对保存的正文内容与赛题要求进行大模型分析,微调模型输出参数,降低模型幻觉,增加消息队列防止同一问题,输出回答错乱。
  • 问题三:根据问题一入库保存的图片、公式,进行clip构建图像侧特征矩阵,根据特征相似度进行重复率判断。以及pdf属性为文本的论文文本内容,进行构建文本侧特征矩阵。进行相似度匹配查重。
  • 问题四:对于图片占比过高的论文pdf,结合版面分析+ocr,对pdf全提取,提取全文本,对文本特征进行相似度匹配,作为权重1;再将所以pdf页面作为图片,构建图像侧特征矩阵,做相似度匹配,作为权重2。最终根据权重综合得出该类论文的重复率。

二、版面分析结果:

在这里插入图片描述
在这里插入图片描述

输出数据结构

json

样例:

{
  "参赛队号": "T001",
  "论文标题": "基于深度学习的文档分析研究",
  "总页数": 12,
  "总字数": 8500,
  "摘要": {"页数": 1, "字数": 300},
  "正文": {
    "页数": 8,
    "字数": 6500,
    "图片数": 6,
    "图片比例": 0.15,
    "表格数": 3,
    "公式数": 12
  },
  "段落统计": {
    "数量": 45,
    "平均句子": 3.2,
    "平均字数": 144
  },
  "参考文献": {"数量": 28},
  "附录": {"页数": 2, "代码行数": 150}
}

在这里插入图片描述

三、大模型本地实现处理分析:

在这里插入图片描述

在这里插入图片描述

主要分享思路,后续做完整体再继续更新全部

“占个坑位。hh”

相关文章:

  • #MySQL数据库深度瘦身优化技术方案
  • linux常用指令(7)
  • 【Infra】理解代理、反向代理和负载均衡器
  • 【Springboot+JPA】存储过程Procedure使用及踩坑记录
  • Spring 源码硬核解析系列专题(三十二):Spring Cloud LoadBalancer 的负载均衡源码解析
  • [杂学笔记]结构体大小的内存对齐规则、继承与组合的区别、New和malloc的区别、define与const的区别、如何保证线程安全、乐观锁与悲观锁
  • 状态空间模型解析 (State-Space Model, SS)
  • Vue 2 探秘:visible 和 append-to-body 是谁的小秘密?
  • 低代码配置式Web组态解析
  • 运维知识:Linux 密码策略:配置、注意事项与实战详解
  • 新手小白 react-useEffect 使用场景
  • Snowflake 算法的实现
  • PHP开发:小区物业管理缴费小程序uniapp在线报修系统、活动报名、在线商城
  • 开源CDN产品-GoEdge
  • 靶场(十七)---小白心得思路分析---Hutch
  • 笔记本+移动端维修全套教程
  • Another Redis Desktop Manager下载安装使用
  • OpenCV三维解算常用方法C++
  • GraalVM原生镜像支持:Spring Cloud应用启动速度提升90%
  • 双指针---《移动零》
  • 韩雪冬网站/线下推广公司
  • 济南网站建设 选聚搜网络/建站平台
  • 绵阳精品网站建设/百度seo优化
  • 哪个网站可以免费做初级试题/电商数据网站
  • 东莞专业做淘宝网站/关键词推广效果
  • 建设网站后如何做后台/广州百度推广电话