当前位置：首页 > wzjs >正文

网站服务器放置地怎么填自己设计装修的app

wzjs 2025/9/15 20:48:23

网站服务器放置地怎么填,自己设计装修的app,济南建设网建筑市场信用信息管理,兼职做网站系统s1: Simple test-time scaling 关于test-time scaling 这个概念其实是相对 train scaling而言的。train scalling 指的是增加训练数据，增加训练flops等等，投入更多资源在train上。test-time scaling，其实现在简化点的理解，就是 …

s1: Simple test-time scaling

关于test-time scaling

这个概念其实是相对 train scaling而言的。train scalling 指的是增加训练数据，增加训练flops等等，投入更多资源在train上。test-time scaling，其实现在简化点的理解，就是

显式或者隐藏的要求模型在decoding的过程中多探索，多思考。

可以参考 HuggingFace上的一篇blog

另外蚂蚁有一篇综述类的文章
在这里插入图片描述

一句话总结

本文用了1000个样本训练一个32B模型（是的，还是Qwen2.5-32B），使得模型可以被【强制结束】和【强制继续】（插入Wait这个词的token）这两种方式控制生成长度，进而做到<budget forcing>

但是作者没说什么问题适合多少budget。

关键细节

1. 数据集怎么选严重影响对模型budget 的可控性

首先1000个最终样本是从6W个样本的池子里选的。说了选数据集时候考虑的三个要素 <质量>，<难度>和 <多样性>。
除了AIME Olympic这些经典难数据集以外，Standford就是不一样啊，把博士生的入学数学考给弄进来了。
推理的Trace是用 Google Gemini Flash Thinking API 生成的（没有其他的API是因为啥呢）

怎么算<质量好>：格式没问题，有正确连接引用等，规则卡的
怎么算<难>：拿Qwen7B和Qwen32B解一遍，解法步骤长的更难。俩模型都会解的，算简单。
怎么算<多样>：也是用的问题的领域（数学与其他领域的交叉问题），先做分类，再做分层抽样

单就筛选细节这部分，其实跟LIMO的思路没啥差别。
关于LIMO的笔记可以看我之前关于LIMO的笔记

2. 跟其他一些Test-time Scaling的方法比较

文章选的对比组有这几个

指定生成长度 (Token-conditional control)：在提示中指定生成的最大token数（如2048 tokens），期望模型控制生成长度。
指定最大推理步数(Step-conditional control)：指定生成的最大步骤数（如64 steps），每步约100 tokens。
指定长思考/短思考 (Class-conditional control)：通过通用提示（如“短时间思考”或“长时间思考”）控制生成长度。
拒绝采样 (Rejection sampling)：通过多次采样直到生成结果符合预设计算预算（如长度限制），近似后验分布。

下面这张图对比budget forcing和其他方案的可控性，生成长度和正确率的斜率关系（scaling这列）和在AIME上的效果。

在这里插入图片描述
单从这个效果上看，其他方法惨败。要不然就是控制成功率上不来，要不然就是长了之后效果更拉了。
这个表格有个问题，没有明确说明这里比较的模型是S132B w/o BF。但问题在于，S132B做了训练，虽然引入了非常强的样本，但同时也加入了和BF相关的Token，这样对其他方法来说，在控制成功率这点上就已经不公平了。不过这个问题还是留给作者和评审在Rebuttal阶段讨论吧。总之，这个表格里的control和Performance两列的可信度都需要打点折扣。

在这里插入图片描述
其实这里“scaling”的含义就比较明显了：“S132B的思考步长越长，难题的准确率就越高”（就是忘了deepseek和其他几个工作在这个数据集上的数了）

3. Wait这个词有“奇效”？

作者比较了用什么词要求延长思考过程，思考的质量更高。这个表比较了几个词的效用，“Wait”稍好。
在这里插入图片描述

评价

1. 高质量的训练数据对能力的影响占了实验的大头

在这里插入图片描述
比较table1 中我画红框的地方，可以看到

S1-32B训练前（Qwen32B-Instruct）==> 是26/84/49
训练后 ==>是50/90/54 
用了显示的BF==>是56/93/59
同时QwQ-32B ==> 是50/90/54.5

没有找到对QwQ-32B做BF和w/o BF 的实验，这样这个逻辑链路就不是很清楚。
只能验证用高质量难数据训练出来的推理模型在难题上的性能有显著飞跃，但test-time scaling 的效果没有那么明显。

2. 没有继续深入研究合理的推理步骤

没有深入推理步骤是指，<没有说到底什么问题限制多长效果最好 >，能做可控scaling的下一个最naive的想法，希望是作者下一个研究能cover一些。

附赠一张蚂蚁的Survey给出来的图，挺好的

虽然比较好，但是方法其实也不全，总体来说两种思路，一种是在生成的步骤上【横向】增加运算budget，一种是在生成的过程中【纵向】生成上增加budget（我说的这两种就是本篇（Simple test-time scaling）的分类方法
在这里插入图片描述

附赠Google的一篇的思路

原文是 SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling 图画的挺好，基本上是一个横向加纵向的方案（虽然看起来有点笨(*/ω＼*)）
在这里插入图片描述

文章转载自：

http://9fCyw6Ca.qkxnw.cn
http://hikeCYoz.qkxnw.cn
http://fM7dGOPe.qkxnw.cn
http://DBnDPGCl.qkxnw.cn
http://ADOFgZJT.qkxnw.cn
http://01hr1kCY.qkxnw.cn
http://SOGdNT9n.qkxnw.cn
http://5Eqr48mZ.qkxnw.cn
http://KQubby6h.qkxnw.cn
http://aU75BNdT.qkxnw.cn
http://AJALPe0G.qkxnw.cn
http://2vucSYj6.qkxnw.cn
http://DNgq1v45.qkxnw.cn
http://HTflEXTm.qkxnw.cn
http://9u75i2RH.qkxnw.cn
http://QSoCDh9q.qkxnw.cn
http://GM3ogO8O.qkxnw.cn
http://gGhWbsgb.qkxnw.cn
http://hkUYx3wB.qkxnw.cn
http://2NQPi47Y.qkxnw.cn
http://mAsxhmGn.qkxnw.cn
http://98vjNfLn.qkxnw.cn
http://8cCw9efP.qkxnw.cn
http://wzQOi2UH.qkxnw.cn
http://rEDPz2De.qkxnw.cn
http://O4jLRkaF.qkxnw.cn
http://BKVw2b84.qkxnw.cn
http://TcW8LaeH.qkxnw.cn
http://KFiYyAyx.qkxnw.cn
http://WSk1hWLl.qkxnw.cn

查看全文

http://www.dtcms.com/wzjs/746496.html

网站维护属于什么专业怎么弄一个公司网站

网站建设宣传的目的阳江网胜

做网站运营工作有前景吗建设网站公司昆山

网页设计与网站建设设计报告网站建设入门书

更新网站 seo高端建站

湖州网站设计公司的别名是宁波公司网站制作

怎么做购物网站的分类目录建设银行官网首页网站招聘

我想做个网站电子商务网站建设的知识点

网站建设综合实训总结与体会友情链接检索数据分析

农业信息网站建设在线设计logo图片

wordpress页脚代码一键优化表格

ai工具推荐哈尔滨网站优化

网站修改需要什么常设中国建设工程法律网站

网站建设无广告wordpress更新需要连接ftp

商城网站都有什么功能专科医院网站建设

凡科做网站类型应该做哪个iis7.5 查看网站流量

赣州建站服务如何做公司网站网页

成都网站建设市场备案用的网站建设方案书

株洲建设企业网站摄影建设网站

常德企业网站建设网页制作教程软件

在哪里查网站是什么时候建站jsp网站建设模板

什么网站可以做调察问卷seo排名赚下载

北京高端网站建设宣传网站运营建设

网站开发的思维导图wordpress 忘记管理员

视频源网站怎么做天津原筑展览展示有限公司

天津网站建设工具网站开发销售怎么做

网站建设先买主机还是wordpress标签转拼音

双井网站建设公司做最简单的网站

网站在哪里找江西南昌建设厅网站

网络公司网站模板html网站建设和编程