当前位置: 首页 > news >正文

【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】【代码篇】A题解题全流程(持续更新)

【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】【代码篇】A题解题全流程(持续更新)

环境配置:

  • 显存>=24GB
  • PyTorch 2.3.0
  • Python 3.12(ubuntu22.04)
  • CUDA 12.1
  • autoDL服务器平台,(好处:可以分享镜像,一键初始化服务器实例,不用关心所需环境、所需模型下载等)也可自己实验室服务器部署(全家桶包售后)

代码+模型文件总览

1、其中系统盘为所需模型的文件,比较大,包含clip的clip_cn_vit-b-16.pt,千问是视觉大模型7B量级,以及版面分析模型权重文件,移入autodl平台的服务器系统盘,我已保存为ATI镜像,直接分享镜像,创建实例后即可,不用浪费时间下载。

2、数据盘为代码和数据、解题代码、保存结果,需自己下载,上传服务器的autodl-tmp文件夹。(也可自己本地服务器使用)

在这里插入图片描述

售后提供用户id,直接分享环境镜像

在这里插入图片描述

一、针对问题一:

首先通过实验、各种测试后,分模块进行开发功能函数代码,最终汇总功能函数调用,进行解析pdf。获取结果追加进result1.xlsx

  • 通过视觉大模型获取论文标题、目录页数下标、附录代码行数、参考文献数据量
  • 通过pdf属性获取文本内容、页数、字数
  • 综合计算正文内容的页面下标列表,得出正文内容是pdf的哪些页面
  • 通过版面分析和pdf属性处理正文部分内容,提取正文文字、表格、图片、公式、计算相关内容等
  • 并且保存数据至数据库jsonl、tsv;包括正文内容、图片、公式,用于后续问题的使用

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

二、针对问题二:

首先读取问题一保存的正文内容数据、以及pdf的摘要部分,进行deepseek R1大模型api调用,判断是否每日免费2k调用额度,针对此任务足够。

  • 根据附件一参赛队伍信息excel,以键 值对,制作信息字典
  • 一般读取前3页,作为队伍信息查找的页数,利用视觉大模型理解,该页pdf是否包含信息字典的关键词(第一种),再读取问题一保存的正文内容,通过deepseek,查询是否有包含信息关键词
  • 对于是否具有 是否与赛题无关 是否无实质内容 则是针对正文内容,进行大模型推理,对文本做判断
  • 最终形成result2.xlxs
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

三、针对问题三:

总体相似度 = 相似字数 / 检测字数
被系统自动识别出来的非正文部分(如目录,标题,公式,图表,参考文献等)不参与检测,检测字数一般略小于论文字数。
相似字数 =(句子1字数 * 句子1相似度 + 句子2字数 * 句子2相似度 + ...... + 句子n字数 * 句子n相似度),句子相似度范围0.00~1.00,绿色句子相似度按照0计算。红色句子为重度相似(80%~100%),建议修改;橙色句子为轻度相似(50%~80%),可酌情修改;绿色句子表示没有检测到相似语句。

首先严格按照论文重复率的计算方式来定义论文重复率,该论文重复率是基于此比赛论文的论文库,进行计算每篇论文的重复率。需要基于保存的论文正文部分数据,构建一个论文数据库,再进行对每篇论文遍历,除开自身,计算与其余论文的重复率。

  • 论文重复率 = 论文中抄袭字数/论文中总字数
  • 构建论文文本重复率代码
  • 使用clip模型,图文模态模型,进行对问题一保存的图片、公式图片进行特征导出
  • 利用图片、公式图片的特征检索,利用knn特征相似度原理,快速计算,得出雷同图片、雷同公式,并且根据其id分割出页编码、页内顺序(这得益于我们问题一的巧妙设计,保存图片、公式的base64编码为tsv,id为pdfname-页编码-页内顺序)
  • 汇总,整理为主程序

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、针对问题四:

核心任务就是针对问题一的正文内容是使用的pdf属性为文本,提取文本内容,通过result1.xlsx可以看出存在文本字数为0的情况,也即是说会有pdf是又由截图组成的,例如将word内容截图贴图,形成pdf。

所以主要是重新设计提取论文正文部分文本的方法,通过问题一保存的每个论文的正文页面下标,我们遍历每个论文,然后通过版面分析+ocr重新获取正文内容。

  • 论文重复率 = 论文中抄袭字数/论文中总字数

  • 重新定义版面分析+ocr,处理所有pdf,提取论文中文部分文本(问题一的时候,用的是pdf文字属性,查看结果会发现其,有的pdf全为图片属性,文本属性为0)

  • 版面分析后,根据label和box进行重排序,确保文本顺序为论文中的从上至下

  • ocr为PaddlePaddle的ocr导出onnx模型

    在这里插入图片描述

在这里插入图片描述

赛题全家桶获取

依旧如24年泰迪杯一样,全家桶包含:

  • 分问题模块进行录制讲解视频
  • 论文一篇(写作中,后两天出,另外梳理论文创新修改点子)
  • 代码
  • 结果(正式数据出来时,会及时更新结果,同步到售后群)
  • 包售后(包括本地实现环境配置,部署实现代码、问题回答、论文指导)

赠品:

老规矩, 比赛结束后,制作【基于大模型的pdf文件转换提取系统】

(利用大模型+版面分析将pdf无缝转换为Markdown文件,文本、图片、公式按顺序呈现)

获取链接

烦请移步社区:http://t.csdnimg.cn/ZIgVI

【基于大模型的pdf文件转换提取系统】

(利用大模型+版面分析将pdf无缝转换为Markdown文件,文本、图片、公式按顺序呈现)

http://www.dtcms.com/a/106619.html

相关文章:

  • 全国产ADC 16bit 2通道1G采样 双FMC子板
  • C++多继承
  • 【抓包工具】win 10 / win 11:Charles 下载、安装、配置(快捷方式、默认端口、登录、https 证书)
  • 【git】VScode修改撤回文件总是出现.lh文件,在 ​所有 Git 项目 中全局忽略特定文件
  • MacOS 的 AI Agent 新星,本地沙盒驱动,解锁 macOS 操作新体验!
  • 地表-地下水系统交互模拟关键技术突破:SWAT-MODFLOW耦合模型构建、验证及多情景预测研究
  • 离线语音识别 ( 小语种国家都支持)可定制词组
  • 项目管理管什么?理什么?
  • 《云端都市:云计算如何重塑未来城市形态》
  • spikingjelly:使用单层全连接 SNN 识别 MNIST
  • Java UnsupportedOperationException 深度解析及解决方案
  • 在HarmonyOS NEXT 开发中,如何指定一个号码,拉起系统拨号页面
  • Python从入门到精通4:计算机网络及TCP网络应用程序开发入门指南
  • JuiceFS vs HDFS,最简单的 JuiceFS 入门
  • Muduo网络库实现 [八] - Acceptor模块
  • 【Harmony OS】TypeScrip基础
  • 小米汽车就 SU7 事故回应六点问题,称「事故车起火并非自燃」、「无法分析车门能否打开」,如何看待?
  • 从头开发一个Flutter插件(二)高德地图定位插件
  • [GESP 202503 二级 T2] 时间跨越
  • Docker 镜像导出与导入:export/import vs save/load
  • AI战略群与星际之门:软银AI投资版图计划深度解析
  • AI辅助下基于ArcGIS Pro的SWAT模型全流程高效建模实践与深度进阶应用
  • deepseek-r1 api部署和镜像
  • OpenCV 图形API(9)用于执行矩阵与标量之间的逐元素除法操作函数divC()
  • 获取oracle表大小
  • 《系统分析师开篇》
  • 电动打气泵方案,多种充气模式的充气泵方案【天吉智芯】
  • 从商汤科技年报,看一家AI企业的确定性叙事
  • 山东港口船货通平台:赋能航运产业升级,构建智慧物流新生态
  • 二分查找算法精讲