当前位置: 首页 > news >正文

【全队项目】智能学术海报生成系统PosterGenius--多智能体辩论

请添加图片描述

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏🏀大模型实战训练营
​💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

文章目录

    • @[toc]
    • 1. 前言
    • 2. 项目进度
    • 3. 本周核心进展
      • 3.1 高质量文本摘要生成阶段的多智能体辩论技术
        • 3.1.1 技术背景与动机
        • 3.1.2 具体实现步骤
        • 3.1.3 代码实现与优化
        • 3.1.4 量化指标与初步成果
    • 4. 下一步计划
    • 5. 总结

1. 前言

PosterGenius 项目旨在打造一款智能学术海报生成系统,依托 DeepSeek 等大模型,通过多模态技术和自动化流程为学术工作者提供高效、个性化的海报设计体验。本周,我们聚焦于提升海报文本内容质量,引入了多智能体辩论技术(Multi-Agent Debate),以优化从论文中提取的高质量摘要。这一技术不仅增强了系统对复杂学术内容的理解能力,还为后续的图文匹配和海报生成奠定了坚实基础。以下是我们本周的详细进展。


2. 项目进度

PosterGenius 项目开发进度

项目开发活动时间状态
项目介绍2025.3.22
内容处理与风格增强2025.3.29
高质量文本摘要生成(多智能体辩论)2025.4.05
海报布局与图像匹配优化2025.4.12
前后端集成与图形化展示2025.4.19

本周我们完成了高质量文本摘要生成模块的初步实现,并进入测试与优化阶段。


3. 本周核心进展

3.1 高质量文本摘要生成阶段的多智能体辩论技术

3.1.1 技术背景与动机

在学术海报生成中,文本摘要是核心组成部分,直接影响海报的信息传递效果。传统的大模型生成摘要可能存在内容遗漏、逻辑不连贯等问题。为此,我们参考了论文 Improving Factuality and Reasoning in Language Models through Multiagent Debate 中的多智能体辩论技术。这项技术通过多个大模型代理(Agents)协作生成并优化答案,避免单模型的局限性,提升摘要的事实准确性和逻辑性。我们的目标是利用这一技术生成高质量的论文摘要,为后续海报内容提供可靠素材。

3.1.2 具体实现步骤

我们设计了一个多轮辩论流程,具体步骤如下:

  1. PDF解析与初始输入:通过 PyMuPDF 从论文 PDF 中提取文本,作为多智能体的输入。

  2. 多模型代理初始化:接入 DeepSeek 和 ChatGPT 等大模型 API,作为独立的 Agent,每个 Agent 基于相同的论文文本生成初始摘要(分点形式)。

  3. 多轮辩论优化:

  • 每轮中,各 Agent 参考其他 Agent 的上一轮输出,指出不足并优化自己的摘要。
    • 通过精心设计的提示词(如“综合其他摘要,改进你的回答”),引导 Agent 进行迭代优化。
  1. 结果整合与输出:经过多轮辩论后,提取最终优化后的摘要,保存为 JSON 格式。
    在这里插入图片描述
3.1.3 代码实现与优化

以下是核心代码片段的简要说明:

  • PDF 文本提取

    def extract_text_from_pdf(pdf_path):
        doc = fitz.open(pdf_path)
        text = ""
        for page in doc:
            text += page.get_text("text") + "\n"
        return text.strip()
    

    使用 PyMuPDF 高效解析 PDF,确保文本提取的完整性。

  • 多模型 API 调用

    @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
    def call_model_api(model_name, messages):
        if model_name == "deepseek":
            api_key = "your_deepseek_api_key"
            headers = {"Authorization": f"Bearer {api_key}"}
            data = {"model": "deepseek-chat", "messages": messages, "temperature": 0.7}
            response = requests.post("https://api.deepseek.com/v1/chat/completions", headers=headers, json=data)
            return response.json()["choices"][0]["message"]["content"]
    

    通过 tenacity 库实现重试机制,确保 API 调用的稳定性。

  • 辩论提示词设计

    def construct_message(other_responses):
        examples = "\n".join([f"Agent {i+1}: {resp}" for i, resp in enumerate(other_responses)])
        return {
            "role": "user",
            "content": f"请综合以下其他Agent的摘要,指出其不足并提出改进:\n{examples}\n请给出优化后的摘要。"
        }
    

    提示词设计是辩论优化的关键,确保 Agent 能有效协作。

  • 主流程:支持多轮迭代,输出最终摘要并保存为 JSON 文件,方便后续调用。

在这里插入图片描述

3.1.4 量化指标与初步成果

我们在 20 篇论文上进行了初步测试,结果如下:

  • 文本提取完整率:98%,成功提取论文关键内容。

  • API 调用成功率:99%,响应时间平均 2.8 秒。

  • 摘要质量:

    • 初始摘要覆盖论文核心内容的比例约为 75%。
    • 经过 2 轮辩论优化后,提升至 92%(人工评估)。
    • 语义一致性评分(人工打分,5 分制):从 3.5 分提升至 4.2 分。
  • 处理时间:单篇论文平均耗时 28 秒,符合预期(<30 秒)。

初步成果表明,多智能体辩论显著提升了摘要的全面性和准确性,为海报文本内容提供了高质量基础。
在这里插入图片描述
在这里插入图片描述


4. 下一步计划

  • 海报布局生成:基于优化后的摘要,利用 DeepSeek 生成约束性 Prompt,进一步完善 LayoutGeneration 模型。
  • 图文匹配优化:结合 CLIP 模型,提升文本与图像的语义对齐精度。
  • 用户测试:在小范围内测试多智能体摘要生成效果,收集反馈并调整参数。

5. 总结

本周我们成功引入多智能体辩论技术,显著提升论文摘要的质量,为PosterGenius 的核心功能迈出了重要一步。这一进展不仅验证了技术的可行性,也为后续的自动化海报生成奠定了基础。完整代码和测试数据将在后续更新至团队的 CSDN 账户,欢迎感兴趣的友友持续关注我们的专栏!
【如果想持续关注猫猫队伍的PosterGenius软件开发(基于deepseek大模型的应用开发),可以订阅热门专栏】

  • 大模型训练营

【如果想学习更多深度学习知识,可以订阅热门专栏】

  • 《AI认知筑基三十讲》
  • 《PyTorch科研加速指南:即插即用式模块开发》
  • 《深度学习理论直觉三十讲》

  如果想要学习更多pyTorch/python编程的知识,大家可以点个关注并订阅,持续学习、天天进步你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~
在这里插入图片描述

http://www.dtcms.com/a/128073.html

相关文章:

  • 高精地图地图匹配定位算法(二)
  • 如何绕过WAF实现SQL注入攻击?​
  • [Windows] 字体渲染 mactype v2025.4.11
  • 2 VS Code 配置指南:C 语言开发环境搭建(含 MinGW-w64 编译器及关键扩展)
  • Web攻防—SSRF服务端请求伪造Gopher伪协议无回显利用
  • CATIA高效工作指南——常规配置篇(一)
  • MyBatis-Plus 核心功能
  • 《2025蓝桥杯C++B组:D:产值调整》
  • 14 - VDMA彩条显示实验
  • 二叉树深度解析:从基础概念到算法实现与应用
  • 04--网络属性设置与多路复用
  • 【HD-RK3576-PI】VNC 远程桌面连接
  • Spark RDD算子详解:从入门到精通
  • Cygwin中链接非标准名动态库
  • 05--MQTT物联网协议
  • hyper-v server服务器部署远程访问(我目前环境:hyper-v服务器+路由器+公网ip)
  • Cesium.js(6):Cesium相机系统
  • 揭开人工智能与机器学习的神秘面纱:开发者的视角
  • 19【动手学深度学习】卷积层
  • Grafana将弃用AngularJS-我们该如何迁移
  • Raymarching Textures In Depth
  • Android Jetpack Compose 高级开发核心技术
  • 如何优化多线程上下文切换?
  • 【AM2634】启动和调试
  • C++标识符:检查是否和保留字冲突
  • SQL 语句说明
  • 从竞速到巡检:不同无人机如何匹配最佳PCB方案?
  • 基于若依和elementui实现文件上传(导入Excel表)
  • Cygwin中使用其它平台生成的动态库
  • 【连载3】基础智能体的进展与挑战综述