当前位置: 首页 > wzjs >正文

网站的收费标准计算机网站建设毕业设计题目

网站的收费标准,计算机网站建设毕业设计题目,制作游戏编辑器app,网站开发 模块<------最重要的是订阅“鲁班模锤”------> GRIT从本质上而言是一种改良过的强化学习&#xff0c;它针对输出进行了魔改&#xff0c;用一个生活例子来理解。想象一下&#xff0c;你在和朋友看一张照片&#xff0c;朋友问你&#xff1a;"这张照片里有几只猫&#xf…

<------最重要的是订阅“鲁班模锤”------>

GRIT从本质上而言是一种改良过的强化学习,它针对输出进行了魔改,用一个生活例子来理解。想象一下,你在和朋友看一张照片,朋友问你:"这张照片里有几只猫?"普通人会怎么回答?"我看看,这里有一只白猫(用手指着左上角),那里还有一只黑猫(指着右下角),所以一共有2只猫。"

传统AI是怎么回答的?"我需要仔细观察这张图片,分析其中的动物特征,通过形状、颜色等特征识别,最终得出结论:图片中有2只猫。"

看出区别了吗?人类会指着具体位置来说明自己的推理过程,而传统AI只会给出文字描述,却不会告诉你它在看图片的哪个部分。

1)传统AI的问题在于看图推理时"指鹿为马",分析图片时就像睁眼瞎,也许它可能说"我看到了一只狗",但实际上图片里根本没有狗。它无法告诉你它在看图片的哪个位置。打个比方: 就像一个学生在考试时写答案,却不显示计算过程。老师无法知道他是真的会做,还是瞎猜的。

2)要训练一个能"指着图说话"的AI,传统方法需要数万张图片,每张图片都要人工标注详细信息(这只猫在哪里、那只狗在哪里),还要写出详细的推理步骤。

这就像: 要教一个孩子认识动物,不仅要给他看图片,还要在每张图片上画出每只动物的位置,写出详细的识别过程。工作量巨大。

GRIT进行了微创新,教AI"用坐标指路",GRIT教会AI在推理时不只说话,还要"指路":

  • 传统AI的回答:"我看到图片中有车辆,通过分析可以确定有2辆车。"

  • GRIT训练的AI回答:

<think> 我需要数一数图片中的车辆。左上角有一辆红色汽车 [123,456,234,567],右下角还有一辆蓝色卡车 [321,432,654,543]</think><rethink>让我再仔细确认一下这两个位置:第一个位置[123,456,234,567]确实是红色汽车,第二个位置[321,432,654,543]确实是蓝色卡车。</rethink><answer>图片中有2辆车。</answer>

这里的数字[123,456,234,567]就是坐标,就像GPS定位一样,告诉你AI在看图片的哪个具体区域!

GRIT的神奇之处:只需要20张图片就能训练成功。GRIT只在答对时给糖果,答错时不给奖励。

  •  奖励1 - 格式奖励(教规矩)

  • 奖励2 - 计数奖励(教准确)

  • 奖励3 - 答案奖励(教正确)

用GPT-4o当"老师"来判断答案对不对,答对了 → 给大奖励,反之答错了 → 给小奖励或不给奖励。

  • 如果需要数3只猫,AI指出了3个位置 → 给奖励

  • 如果指出了2个或4个位置 → 不给奖励。就像教孩子数数要准确一样

  • 如果AI按照 <think>...坐标...</think> 的格式回答 → 给奖励

  • 如果AI乱说话不按格式 → 不给奖励,就像教孩子说话要有礼貌一样

传统方法可能需要请100个老师,准备1万本教材,教3个月。而GRIT则是请1个老师,准备20本教材,教1天。而且GRIT让AI变得"诚实":

  • 以前用户:"为什么你说这里有只猫?"。AI:"我就是觉得有"(无法解释)

  • 现在用户:"为什么你说这里有只猫?",AI:"因为我在坐标[100,200,300,400]这个位置看到了猫的特征"。用户可以立即验证这个位置是否真的有猫

第一步:接收任务输入,例如一张客厅照片 + "房间里有几把椅子?"

第二步:开始思考(<think>阶段)

AI开始扫描图片:

<think>我需要在这张客厅图片中找到所有的椅子。让我仔细看看...第三步:指出位置并分析,AI找到可疑区域并标记坐标:我在左边看到一把木椅 [50,100,150,200],中间有一把沙发椅 [200,150,350,250],右边角落还有一把小椅子 [400,300,500,400]第四步:再次确认(<rethink>阶段)AI重新检查自己找到的位置:<rethink>让我再次确认这些位置:位置[50,100,150,200]:确实是一把木质餐椅位置[200,150,350,250]:这是一把单人沙发椅位置[400,300,500,400]:这是一把小凳子,也算椅子所以总共有3把椅子。</rethink>

第五步:给出最终答案

<answer>房间里有3把椅子。</answer>

以下为强化学习的过程,这个过程很像训练宠物:

第一轮尝试:

AI生成答案:"房间里有椅子[乱七八糟的数字],所以有2把"

系统判断:格式乱、位置错、答案也错奖励:0分(什么都不给)

第二轮尝试:

AI生成答案:"<think>有椅子[100,200,300,400]</think> <answer>1把</answer>"

系统判断:格式对、位置对、但答案错了奖励:1分(格式奖励+位置奖励)

第三轮尝试:

AI生成完整的推理过程,格式正确,位置准确,答案正确奖励:满分!

经过多次训练: AI学会了同时做好三件事:按正确格式回答,准确指出位置,给出正确答案

从视觉定位(grounding)和逻辑推理(reasoning)两个角度评估了使用 GRIT 方法训练的多模态模型在“定位式推理”(grounded reasoning)任务中的表现。接着,从定性与定量两个方面进一步分析了模型生成的边界框与其推理内容之间的相互作用。最后还研究了训练数据规模扩大对模型性能的影响。

在实验设置方面,选取了六个公共数据集(VSR、TallyQA、GQA、MME、MathVista-mini 和 OVDEval 的位置子集)作为评测集,涵盖空间关系验证、目标计数、组合式空间问答、多样化视觉任务及开放词表定位等任务类型。

训练数据方面,展示了GRIT在小样本场景下的强大能力,仅使用来自VSR和TallyQA的20个图像-问题-答案三元组进行训练。训练使用 Qwen2.5-VL-3B 和 InternVL3-2B 两个主流多模态模型,在 GRPO-GR 策略下采用强化学习进行优化,训练步骤为 200,使用 Deepspeed Zero2 在 8 张 A100 显卡上完成,训练耗时约 12 小时。

实验结果表明,GRIT 训练出的模型在 GPT-答案准确率和 Grounding IoU 两个指标上均优于所有基线方法,体现了其在统一视觉定位与多步推理能力上的显著优势。

更多专栏请看:

  • LLM背后的基础模型

  • 如何优雅的谈论大模型

  • 体系化的通识大模型

http://www.dtcms.com/wzjs/572796.html

相关文章:

  • 燕郊个人做网站dz3.2整合wordpress
  • 注册网站公司苏州网站建设推荐q479185700霸屏
  • 用ps怎么做网站步骤贵州微网站建设公司
  • 成都哪家公司做网站好网站建设需求材料
  • 济宁网站制作专门做ppt会员网站
  • 做网站遇到的困难总结在线crm管理系统
  • 桥西做网站辽宁建设工程信息网官网盲盒系统
  • 阿里巴巴是搭建的网站吗网络推广主要用哪些软件
  • 百度网站怎么做的赚钱吗转行做网站
  • 做衣服网站重生做门户网站的小说
  • 宁波企业制作网站做网站备案都需要什么东西
  • 网站一般宽度是多少像素常德论坛尚一网市民留言
  • 杭州做网站的公司有哪些1688网站入口
  • 优秀网站设计要素现在房子装修流行什么风格
  • wordpress主页最新文章显示漳州seo顾问
  • 山东省建设厅网站互联网创业平台有哪些
  • 虚拟网站多少钱做公司网站多钱
  • 怎么依赖网站开发app课程平台网站建设报价
  • 自己做电影网站怎么赚钱马蹄网室内设计
  • 网站建设方面的书籍书籍游戏优化大师官方下载
  • 网站建设 中企动力长沙网站建设_
  • 广州网站平台建设免费房屋设计装修
  • 可以做微课PPT模板 网站wordpress论坛搭建
  • 怎么在国税网站上做实名认证吗微信的网址链接
  • 北京亦庄网站建设公司什么软件做网站
  • 东莞网站建设的方案深圳wordpress培训
  • 室内设计学校网站网站建设织梦怎么样
  • 6种常见的网页布局类型惠州做网站乐云seo轻松上线
  • 民政网站建设情况汇报建设系统网站首页
  • 公司网站可以做服务器吗分栏式的网站有哪些