当前位置: 首页 > news >正文

Datawhale+AI夏令营_让AI读懂财报PDF task2深入赛题笔记

1.深入理解baseline方案
1.1 赛题任务

项目背景
本次赛题的核心目标是打造一个能看懂图片、读懂文字、并将两者关联起来思考的AI助手,构建一个先进的智能问答系统,以应对真实世界中复杂的、图文混排的信息环境。
(1)让AI模型能够阅读并理解包含大量图标、图像和文字的pdf文档,基于信息回答用户问题。
(2)能找到答案的同时还需要标注出答案的出处,比如源自于哪一个文件的哪一页。

1.2 相关知识点及参考资料
多模态RAG任务有四大核心要素
此次赛题的核心不仅仅是简单的问答,而是基于给定的pdf知识库的、可溯源的多模态问答。
它定义了我们系统的四个基本支柱,也是我们构建解决方案时必须时刻牢记的四个约束:
数据源:一堆图文混排的PDF,这是我们唯一的数据。
可溯源:必须明确指出答案的出处。
多模态:问题可能需要理解文本,也可能需要理解图表(图像)。
问答:根据检索的信息生成一个回答。

1.3 相关知识点及参考资料
PDF文档解析库PyMuPDF官方教程:https://pymupdf.readthedocs.io/en/latest/
强大的中文OCR工具PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR
领先的中文文本向量化模型库FlagEmbedding (BGE模型):https://github.com/FlagOpen/FlagEmbedding
经典图文多模态向量化模型CLIP (Hugging Face实现):https://huggingface.co/docs/transformers/model_doc/clip
高性能向量检索引擎FAISS入门指南:https://github.com/facebookresearch/faiss/wiki/Getting-started
简单易用的向量数据库ChromaDB快速上手:https://docs.trychroma.com/getting-started
通义千问Qwen大模型官方仓库 (含多模态VL模型):https://github.com/QwenLM/Qwen-VL
集成化RAG开发框架LlamaIndex五分钟入门:https://docs.llamaindex.ai/en/stable/getting_started/starter_example.html
Xinference官方仓库(模型推理框架):
https://github.com/xorbitsai/inference

2.任务要求的重点和难点

未完待续…

http://www.dtcms.com/a/323208.html

相关文章:

  • Python樱花树
  • TOMCAT笔记
  • 数据安全与隐私保护:企业级防护策略与技术实现
  • C#异步编程双利器:异步Lambda与BackgroundWorker实战解析
  • protoc 生成java文件命令,protoc生成js命令 protobuf 生成java文件命令,protobuf生成js文件命令
  • 深入理解Qt事件处理机制
  • Cursor手机版:一半是神,一半是坑
  • Linux软件编程:shell
  • pdf预览Vue-PDF-Embed
  • 定制客车系统票务管理系统功能设计
  • 深度学习入门Day8:生成模型革命——从GAN到扩散模型
  • Vue 3.6 Vapor模式完全指南:告别虚拟DOM,性能飞跃式提升
  • 大模型“涌现”背后的暗线——规模、数据、目标函数的三重协奏
  • 华为实验:SSH
  • P1890 gcd区间
  • 在 VS Code 或 Visual Studio 2022 上搭建 ESP32-CAM 开发环境
  • 微软将于 10 月停止混合 Exchange 中的共享 EWS 访问
  • 论文复现内容关于一种新的线性电机系统齿槽力模型
  • 关于TensorRT的若干报错问题
  • [Oracle] TRUNC()函数
  • W25Q64中跨页写入数据
  • 总结-ArrayList的扩容机制和BigDecimal大数的底层
  • 机器学习DBSCAN密度聚类
  • 如何更改win11自带录音机所录制文件的存储路径
  • 禁用 WordPress 更新提示(核心、插件、主题)
  • 【重建技巧】Urban Scene Reconstruction-LoD细节提升
  • springBoot集成easyExcel 实现文件上传
  • WinForm 中 ListView 控件的实战应用与功能拓展
  • 集成电路学习:什么是RViz机器人可视化工具
  • Java 时间和空间复杂度