当前位置: 首页 > wzjs >正文

c 企业网站开发移动互联网开发研究方向

c 企业网站开发,移动互联网开发研究方向,蚌埠公司做网站,wordpress p2 themeMLLM之Bench:LEGO-Puzzles的简介、安装和使用方法、案例应用之详细攻略 目录 LEGO-Puzzles的简介 1、LEGO-Puzzles的特点 LEGO-Puzzles的安装和使用方法 1、安装 步骤 0:安装 VLMEvalKit 步骤 1:设置 API 密钥(可选&#xf…

MLLM之Bench:LEGO-Puzzles的简介、安装和使用方法、案例应用之详细攻略

目录

LEGO-Puzzles的简介

1、LEGO-Puzzles的特点

LEGO-Puzzles的安装和使用方法

1、安装

步骤 0:安装 VLMEvalKit

步骤 1:设置 API 密钥(可选)

步骤 2:在 LEGO-Puzzles 上运行评估

推理 + 评估:

仅推理:

多 GPU 加速(可选):

LEGO-Puzzles的案例应用


LEGO-Puzzles简介

2025年4月,LEGO-Puzzles是一个用于评估多模态大型语言模型 (MLLM) 多步空间推理能力的基准测试。

LEGO-Puzzles 基准测试旨在系统地评估多模态大型语言模型 (MLLM) 的多步空间推理能力。它以乐高积木搭建为灵感,将空间理解定义为一系列乐高积木组装任务,这些任务需要模型同时具备视觉感知和顺序推理能力。 该基准测试包含三种核心任务类型:空间理解、单步顺序推理和多步顺序推理。 除了传统的视觉问答 (VQA) 任务外,LEGO-Puzzles 还包含图像生成任务,评估 MLLM 是否能够模拟结构转换并预测未来的组装状态。为了方便人类与模型进行比较,LEGO-Puzzles 还提供了一个精简的子集 LEGO-Puzzles-Lite,以及一个名为 Next-k-Step 的细粒度评估套件,用于测试在日益复杂的条件下推理的可扩展性。

总而言之,LEGO-Puzzles 提供了一个基于乐高积木的基准测试,用于评估 MLLM 的多步空间推理能力,其结果表明当前的 MLLM 在此方面仍有很大的提升空间。 该基准测试易于使用,并与 VLMEvalKit 框架集成,方便研究者进行模型评估。

GitHub地址:https://github.com/Tangkexian/LEGO-Puzzles

1、LEGO-Puzzles特点

● 基于乐高积木:使用乐高积木搭建场景作为测试对象,直观易懂,便于理解和解释结果。

● 多任务类型:包含空间理解、单步顺序推理和多步顺序推理三种核心任务类型,以及图像生成任务,全面评估空间推理能力。

● 可扩展性:通过 Next-k-Step 评估套件,可以测试模型在不同步数下的推理能力。

● 可解释性:任务设计清晰,结果易于解释,方便分析模型的优缺点。

● 包含图像生成任务:不仅评估问答能力,还评估模型生成图像的能力,更全面地考察空间推理能力。

● 提供精简数据集:LEGO-Puzzles-Lite 方便进行人机性能比较。

LEGO-Puzzles安装和使用方法

LEGO-Puzzles 已完全集成到 VLMEvalKit 框架中。

1、安装

安装和使用方法如下:

步骤 0:安装 VLMEvalKit

git clone https://github.com/open-compass/VLMEvalKit.gitcd VLMEvalKitpip install -e .

步骤 1:设置 API 密钥(可选)

如果要评估基于 API 的模型(例如 GPT-4o、Gemini-Pro-V 等)或使用 LLM 作为评判模型,需要在 .env 文件中配置必要的密钥,或者将其导出为环境变量:

# Example .env (place it in VLMEvalKit root directory)OPENAI_API_KEY=your-openai-keyGOOGLE_API_KEY=your-google-api-key# ...other optional keys

如果没有提供密钥,VLMEvalKit 将默认使用精确匹配评分(仅适用于 Yes/No 或多项选择任务)。

步骤 2:在 LEGO-Puzzles 上运行评估

将数据集名称设置为 LEGO 即可运行 LEGO-Puzzles:

推理 + 评估

python run.py --data LEGO --model <your_model_name> --verbose# Example:# python run.py --data LEGO --model idefics_80b_instruct --verbose

仅推理

python run.py --data LEGO --model <your_model_name> --verbose --mode infer# Example:# python run.py --data LEGO --model idefics_80b_instruct --verbose --mode infer

多 GPU 加速(可选)

torchrun --nproc-per-node=4 run.py --data LEGO --model <your_model_name> --verbose# Example:# torchrun --nproc-per-node=4 run.py --data LEGO --model idefics_80b_instruct --verbose

LEGO-Puzzles案例应用

论文评估了 20 个最先进的 MLLM,包括开源和专有模型。结果表明,尽管 GPT-4o 和 Gemini-2.0-Flash 的整体性能领先,但在需要 3D 空间对齐、旋转处理和多步组装跟踪的任务中,它们的性能仍然远低于人类注释者。 在 LEGO-Puzzles-Lite (220 个样本) 上的人类与模型性能比较中,人类始终以较大优势胜出,再次证实了当前 AI 系统在空间推理方面面临的挑战。 在 5 个基于乐高的图像生成任务中,只有 Gemini-2.0-Flash 和 GPT-4o 表现出部分成功,开源模型通常无法生成结构有效或与指令对齐的图像。 Next-k-Step 评估结果表明,思维链 (CoT) 提示并不能有效地增强多步空间推理能力。


文章转载自:

http://9WlhjpmS.rqckh.cn
http://wbYcayky.rqckh.cn
http://0XLqKcub.rqckh.cn
http://IEHnCnxK.rqckh.cn
http://R9Y68LxT.rqckh.cn
http://CV2OBtuN.rqckh.cn
http://a7nERLK7.rqckh.cn
http://CRW0stei.rqckh.cn
http://LxVm8Zkq.rqckh.cn
http://CgueFxXS.rqckh.cn
http://QHyMRUpu.rqckh.cn
http://eqhpciSr.rqckh.cn
http://fC8DPPsv.rqckh.cn
http://xJjZ6enw.rqckh.cn
http://Fqp7OZJn.rqckh.cn
http://tkI2ahLY.rqckh.cn
http://suEVVUaS.rqckh.cn
http://gFA2vdLV.rqckh.cn
http://cyl0mgAH.rqckh.cn
http://X0jmLayi.rqckh.cn
http://q4L6DdPC.rqckh.cn
http://tWSLalpz.rqckh.cn
http://Ex9jQBn7.rqckh.cn
http://yeAWvFks.rqckh.cn
http://xHa3itzO.rqckh.cn
http://PWXPUlQE.rqckh.cn
http://isWqFUOQ.rqckh.cn
http://fyocm8Ka.rqckh.cn
http://7N101i9j.rqckh.cn
http://rNQUgET6.rqckh.cn
http://www.dtcms.com/wzjs/716236.html

相关文章:

  • 网站自动跳转seo首页优化
  • 外贸精品网站建设什么网站可以接图做图
  • 可以不花钱做网站吗建网站的流程
  • 丹东网站建设如何做自己的简历网站
  • 如何在网站网站做代理网页制作公司南昌
  • 制作网站赚钱不深圳那家做网站好
  • 上传的网站打不开 index.asp长沙招聘信息
  • xyz域名注册局官方网站wordpress没有安装主题
  • 南宁网站建设liluokj大连网站制作诚推ls15227
  • 虚拟机主机网站建设的几个步骤网络推广的优势有哪些
  • 海阳建设局网站青岛网站优化公司
  • 购物网站二级页面模板软件开发培训学校哪的好
  • 唐山哪里建设网站泸西县建设小学网站
  • ps临摹网站wordpress 自建cdn
  • 临沂做网站推广的公司中海外城市建设有限公司网站
  • 一个微信网站多少钱建设网站需要购买虚拟主机吗
  • 网站发布与推广鞍山建立公司网站的步骤
  • 网页设计的网站推荐魔方 网站建设 有限公司
  • 网站开发的乌兰察布市建设银行网站
  • 外贸网站源码怎么建汽车网站营销
  • 怎么做打鱼网站外贸功能网站建设
  • 深圳手机网站建设合肥百度搜索优化
  • 游戏网站开发计划书郑州平面设计培训速成班
  • 温州市手机网站制作哪家好做网站还是app省钱
  • 商城网站建设哪家公司好wordpress 模板 教程
  • 网站建站平台 开源世界足球排名前100名
  • 国外有没有网站是做潘多拉的wordpress 弹窗登陆
  • 网站运营托管方案设计网址有哪些
  • 如何给网站做优化代码微网站建设找哪家公司
  • 福建住房与城乡建设厅网站网站开发专业就业好不好