当前位置: 首页 > news >正文

Web-Bench:基于web标准和框架的benchmark

一、前言

  • https://github.com/bytedance/web-bench
  • https://arxiv.org/abs/2505.07473

对于web工程的benchmark

二、核心逻辑

2.1 数据

Web-Bench 数据集包含 50 个项目,每个项目包含 20 个具有连续依赖关系的任务

连续依赖关系,就是后一个task依赖于上一个task(time series task),简单example:

task1: 帮我写一个付款界面
task2: 这个付款界面帮忙改下分布,和颜色

项目类型涵盖游戏、实用程序、图表、绘图板、调查、数据表、博客网站、文档网站

主流的前端框架和标准覆盖

2.2 eval workflow


这里图画的很清楚,不赘述

2.3 内置的Web-Agent

代码webAgent:https://github.com/bytedance/web-bench/tree/main/tools/bench-agent

  1. 构建提示:SP、任务描述、文件和错误消息。如果组合输入超出上下文长度,则会被截断。
  2. 请求 LLM:支持多种LLM路由,从模型提供方获取 temp、maxToken、contextLength 等参数, 进行推理Agent Step。
  3. 提取文件:解析 LLM 的响应以提取生成的文件。

2.4 评测方式

workflow中有ut,如果过不了则再一次attempt,pass@n,为第n次task成功

三、结果leaderboard

四、运行

4.1 配置

4.1.1 local agent

通过配置model url走内部定义好的web agent来进行评测模型的能力

这里key和model是一一对应的, models里面有更多的配置

{"title": "gpt-4o", // 显示模型"provider": "openai", // 走的openai的provider"model": "gpt-4o", // 传入模型name"apiBase": "https://api.openai.com/v1/",  // base url"apiKey": "{{OPENAI_API_KEY}}" // api key
},

4.1.2 自定义agent

需要将自己的agent输入输出做成一个实例,通过agent url访问
需要这样配置即可:

{"agentMode": "http","agentEndPoint": "http://example.com/path/to/agent"
}

4.2 启动docker评测

docker build -f ./start.dockerfile -t web-bench .
docker run web-bench

整个项目是web, docker中会安装很多前端依赖

# 安装指定版本工具
RUN npm install -g npm@11.3.0 && \npm i -g pnpm@9.12.0 @microsoft/rush@5.140.0# 在rush update前清理可能的旧文件
RUN rm -rf common/temp/*RUN npm i playwright@1.49.1 -gRUN npx playwright installRUN playwright install-deps
http://www.dtcms.com/a/272248.html

相关文章:

  • Fiddler中文版全面评测:功能亮点、使用场景与中文网资源整合指南
  • 什么是强化学习(RL)--2
  • 如何在VMware里的飞牛OS访问主机里面图片文件夹
  • 【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题
  • 【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(三)
  • 华为昇腾NPU与NVIDIA CUDA生态兼容层开发实录:手写算子自动转换工具链(AST级代码迁移方案)
  • 缓存穿透与击穿多方案对比与实践指南
  • 设计模式的六大设计原则
  • AI问答之手机相机专业拍照模式的主要几个参数解释
  • 【笔记】使用 html 创建网址快捷方式
  • 达梦数据库DMDRS搭建单向dm8-dm8数据同步
  • 【工具教程】批量提取OCR图片中固定文字保存WPS表格,批量OCR识别图像中的文字保存到Excel表格的操作步骤和注意事项
  • 虚拟环境已安装该包,且已激活,但报错
  • 智能体的记忆系统:短期记忆、长期记忆与知识图谱
  • Spring for Apache Pulsar->Reactive Support->Quick Tour
  • 【LeetCode100】--- 1.两数之和【复习回滚】
  • 氢能源杂谈
  • 深入拆解Spring核心思想之一:IoC
  • 天津医大用网络药理学+分子对接发表中科院二区IF5
  • 【Python】基于Python提取图片验证码
  • SYM32第二十天 ESP8266-01S和电脑实现串口通信(3)
  • 羊肚菌自动采收车设计cad【7张】+三维图+设计说明书
  • 电脑息屏工具,一键黑屏超方便
  • 双esp8266-01之间UDP透传传输,自定义协议
  • LlamaFactory Demo
  • 使用langchain连接llama.cpp部署的本地deepseek大模型开发简单的LLM应用
  • CTFHub————Web{信息泄露[备份文件下载(vim缓存、.DS_Store)]}
  • turbopack打包机制
  • SQL的初步学习(一)(以MySQL为例)
  • 重置 Rust 工具链​