当前位置：首页 > news >正文

Datawhale AI夏令营-记录2

news 2025/10/5 10:22:23

任务

实现“基于给定的pdf知识库的、可溯源的多模态”问答。
给出一些图文混合的pdf，训练一个大模型，当用户提出问题时，大模型能够以这些pdf为背景，给出回答，并指出回答的来源，具体到pdf的名称和对应页数，避免大模型“理直气壮”地编造数据。

task2的操作步骤

将task1中下载的文件全部删除，随后在终端执行下列命令

git lfs install
git clone https://github.com/li-xiu-qi/spark_multi_rag
cd spark_multi_rag
pip install -r requirements.txt
cd ..
pip install uv
cd spark_multi_rag
uv sync
source .venv/bin/activate
python mineru_pipeline_all.py

随后执行python rag_from_page_chunks.py

task3

查看全文

http://www.dtcms.com/a/322286.html

Kotlin初体验

【linux基础】Linux 文本处理核心命令指南

代码随想录day59图论9

NY151NY152美光固态闪存NY153NY154

利用whisper api实现若无字幕则自动下载音频并用 whisper 转写，再用 LLM 总结。

JVM相关（AI回答）

等保测评-RabbitMQ中间件

【Java EE初阶 --- 网络原理】JVM

从零玩转Linux云主机：免费申请、连接终端、命令速查表

分析报告：基于字节连续匹配技术的KV缓存共享实施可能性及其扩展

✨ 基于 JsonSerialize 实现接口返回数据的智能枚举转换（优雅告别前端硬编码！）

【Linux】Socket编程——UDP版

(nice!!!)(LeetCode 面试经典 150 题) 146. LRU 缓存 (哈希表+双向链表)

Go语言实战案例:文件上传服务

香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频

在Docker中下载RabbitMQ(详细讲解参数）

BGP 笔记

C语言gdb调试

母线电压采样芯片的四大类——汽车级选型对比表

101和201复制卡技术难点与解决方案

Express中间件和路由及响应方法

软件定义车辆加速推进汽车电子技术

Python如何将图片转换为PDF格式

2025最新高频前端面试题解析（含Vue/React/JS核心考点）

day30-HTTP

Ubuntu Server 22 虚拟机空间扩容

B.10.01.3-性能优化实战：从JVM到数据库的全链路优化

stm32项目（25）——基于stm32的植物生长箱环境监测系统

微信小程序中实现表单自动填充功能的方法

自动化一键部署 LNMP 环境

任务

task2的操作步骤

task3

相关文章：