Datawhale AI夏令营-记录2
任务
实现“基于给定的pdf知识库的、可溯源的多模态”问答。
给出一些图文混合的pdf,训练一个大模型,当用户提出问题时,大模型能够以这些pdf为背景,给出回答,并指出回答的来源,具体到pdf的名称和对应页数,避免大模型“理直气壮”地编造数据。
task2的操作步骤
将task1中下载的文件全部删除,随后在终端执行下列命令
git lfs install
git clone https://github.com/li-xiu-qi/spark_multi_rag
cd spark_multi_rag
pip install -r requirements.txt
cd ..
pip install uv
cd spark_multi_rag
uv sync
source .venv/bin/activate
python mineru_pipeline_all.py
随后执行python rag_from_page_chunks.py