当前位置: 首页 > news >正文

Training for Computer Use

Training for Computer Use

核心事件:多家科技公司推出能操控计算机的智能体,字节跳动和清华大学团队引入UI - TARS模型,展示了训练模型实现计算机操控能力的新成果。

UI - TARS模型

  • 基本信息:是视觉 - 语言模型Qwen2 - VL的微调版本,能基于推理决定在桌面和移动应用中的操作,模型权重遵循Apache 2.0许可,可免费下载使用。

  • 训练过程

    • 添加思维链:在训练集中,通过提示未指明的视觉 - 语言模型,结合先前信息解释当前操作来添加思维链。因解释可能不佳,故对同一截图生成多个思维链与操作,选正确的用于训练。

    • 微调训练:让UI - TARS依据指令、已有截图、思维链和操作生成新思维链与操作,进行微调。

    • 虚拟运行与筛选:在虚拟机中运行UI - TARS生成大量数据,用规则过滤错误内容,自动打分并人工审核,对剩余数据微调,重复生成、筛选和微调。

    • 错误修正与再训练:人工标注修正错误的思维链和操作示例,用于模型再训练,使其避免或修复错误。

    • 偏好优化:用直接偏好优化(DPO)让模型倾向生成修正后的正确示例。

    • 推理运行:推理时,UI - TARS根据截图、指令和潜在操作生成思维链与操作,执行操作后接收新截图,循环生成新思维链与操作,综合考虑所有信息。

新闻背景:2022年初Adept宣扬计算机操控能力,OmniParser Aguvis跟进推出应用。2024年10月Anthropic宣布Claude 3.5 Sonnet具备此能力引发热潮,OpenAI也推出Operator涉足该领域。

实验结果:在11项基准测试中,UI - TARS表现出色,在OSWorld测试中,完成任务的成功率高于Claude 3.5 Sonnet、GPT - 4o(搭配Aguvis框架)以及Aguvis原生模型。

重要意义:训练模型做出正确操作可保证其良好表现,训练其修正错误能让它应对现实中的意外问题。

未来展望:计算机操作可在虚拟机模拟,能自动生成大量训练数据,有望推动大语言模型在计算机操控能力上快速发展。

相关文章:

  • 【实战AI】利用deepseek 在mac本地部署搭建个人知识库
  • 堆栈欺骗技术
  • leetcode 2684. 矩阵中移动的最大次数
  • DeepSeek介绍本地部署保姆级教程
  • 三角测量——用相机运动估计特征点的空间位置
  • MySQL与Oracle对比及区别
  • #渗透测试#批量漏洞挖掘#致远互联AnalyticsCloud 分析云 任意文件读取
  • Maven 构建优化技巧
  • Grafana-使用Button修改MySQL数据库
  • Proxmox 更新软件包数据库(TASK ERROR: command ‘apt-get update‘ failed: exit code 100)
  • 青少年编程与数学 02-009 Django 5 Web 编程 12课题、表单处理
  • HTTP请求响应分析:HTTP/1.1→HTTP/2
  • Linux 查看磁盘中的大文件
  • 第一章:认识Tailwind CSS - 第四节 - Tailwind CSS 与其他 CSS 方案的对比
  • sib报错:com.*.xctrunner is not in your device!
  • 排序算法——人无完人
  • [极客大挑战 2019]Havefun1
  • deepseek + kimi 高效生成PPT
  • 爬虫实战:利用代理ip爬取推特网站数据
  • 深入理解队列数据结构:从定义到Python实现与应用场景
  • 杭州网站设计步骤/北京搜索引擎优化管理专员
  • 像美团这种网站怎么做/产品seo是什么意思
  • 旅游网站做模板素材/国内最新新闻大事
  • 万网买的网站备案/网络营销方案设计
  • 产品网站建设/天津建站网
  • 网站小程序app开发/网站制作多少钱