当前位置: 首页 > news >正文

Datawhale AI夏令营-记录2

任务

实现“基于给定的pdf知识库的、可溯源的多模态”问答。
给出一些图文混合的pdf,训练一个大模型,当用户提出问题时,大模型能够以这些pdf为背景,给出回答,并指出回答的来源,具体到pdf的名称和对应页数,避免大模型“理直气壮”地编造数据。

task2的操作步骤

将task1中下载的文件全部删除,随后在终端执行下列命令

git lfs install
git clone https://github.com/li-xiu-qi/spark_multi_rag
cd spark_multi_rag
pip install -r requirements.txt
cd ..
pip install uv
cd spark_multi_rag
uv sync
source .venv/bin/activate
python mineru_pipeline_all.py

随后执行python rag_from_page_chunks.py

task3

http://www.dtcms.com/a/322286.html

相关文章:

  • Kotlin初体验
  • 【linux基础】Linux 文本处理核心命令指南
  • 代码随想录day59图论9
  • NY151NY152美光固态闪存NY153NY154
  • 利用whisper api实现若无字幕则自动下载音频并用 whisper 转写,再用 LLM 总结。
  • JVM相关(AI回答)
  • 等保测评-RabbitMQ中间件
  • 【Java EE初阶 --- 网络原理】JVM
  • 从零玩转Linux云主机:免费申请、连接终端、命令速查表
  • 分析报告:基于字节连续匹配技术的KV缓存共享实施可能性及其扩展
  • ✨ 基于 JsonSerialize 实现接口返回数据的智能枚举转换(优雅告别前端硬编码!)
  • 【Linux】Socket编程——UDP版
  • (nice!!!)(LeetCode 面试经典 150 题) 146. LRU 缓存 (哈希表+双向链表)
  • Go语言实战案例:文件上传服务
  • 香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频
  • 在Docker中下载RabbitMQ(详细讲解参数)
  • BGP 笔记
  • C语言gdb调试
  • 母线电压采样芯片的四大类——汽车级选型对比表
  • 101和201复制卡技术难点与解决方案
  • Express中间件和路由及响应方法
  • 软件定义车辆加速推进汽车电子技术
  • Python如何将图片转换为PDF格式
  • 2025最新高频前端面试题解析(含Vue/React/JS核心考点)
  • day30-HTTP
  • Ubuntu Server 22 虚拟机空间扩容
  • B.10.01.3-性能优化实战:从JVM到数据库的全链路优化
  • stm32项目(25)——基于stm32的植物生长箱环境监测系统
  • 微信小程序中实现表单自动填充功能的方法
  • 自动化一键部署 LNMP 环境