当前位置: 首页 > wzjs >正文

苏州企业商务网站建设个人博客网站设计

苏州企业商务网站建设,个人博客网站设计,阿里巴巴黄页网1688,安平做网站做推广电话不是标题党! 不是标题党! 不是标题党! 先说3遍 这个模型有多大呢?1.5B,相当于鼻涕嘎一般大小,和大模型可以说是毫无关系 先看看它和别的模型比较,我们不能只看eval datasets跑出来的数据&am…

不是标题党!

不是标题党!

不是标题党!

先说3遍

这个模型有多大呢?1.5B,相当于鼻涕嘎一般大小,和大模型可以说是毫无关系

Image

先看看它和别的模型比较,我们不能只看eval datasets跑出来的数据,因为容易在训练集里混入测试集,用几个我一直用着很顺手的问题

第一个,我的经典问题:

“ 已知 $$ n \in N^* $$,求和: \[ S = \frac{3}{1 \times 2} \times \frac{1}{2} + \frac{4}{2 \times 3} \times \frac{1}{2^2} + \cdots + \frac{n+2}{n(n+1)} \times \frac{1}{2^n} = \underline{\hspace{1cm}}. \] ”

Image

不要小看这题,GPT4o 20250129之前的版本是做不出来的

难点在 分式拆分、错位相消、指数项处理 这三部分。

需要灵活运用 部分分式分解 和 等比数列求和 的知识点。

如果对求和技巧不熟练,可能会卡在如何化简求和式的步骤上。

当然现如今基本国内的大模型很多都能答上来了(我估计这题大概率已经被收入进训练集里了),比如Kimi,豆包,这题属于测试LLM是否可用的一个门槛

那么谁作对(错)了呢?

1号选手 大家都觉得数理化比较厉害的Claude3.5 sonet

Image

它根本做不出来,纯乱答

2号选手qwen32-coder

Image

陷入到我刚才说的化简和式的战争中了,最后败了

3号选手 OpenAI latest

Image

它能做出来,但是原来它根本做不出来,可见新GPT是被O给灌注的

老GPT是根本不行的

Image

4号选手 DS 的官方 qwen-R1 distill 32B

Image

它是一直有这个实力的

如果我把 模型缩小为1.5B的化呢?

5号选手 DS 的官方 qwen-R1 distill 1.5B

Image

它肯定做不出来,本来也没指着它能做出来

但是!!!

如果我们对这个毫不起眼的1.5B模型,再做一次强化学习?

R1论文的Deppseek官方的模型所谓的蒸馏,就是把80K的DS R1生成的高质量推理COT数据,SFT到qwen或者llama里面去,仅此而已,没有做RL强化学习

为什么不做?

因为R1论文说发现直接拿RL来激发小模型的推理能力比较难训练,不如直接灌COT数据来的直接

Image

Image

当时我就有一个疑问,既然灌注了高等级数据以后qwen能力都上升了,为什么这个时候不在基于这个Distill模型再RL呢?

但是Deepseek的人没做,我其实也懒得做,但是有人做了

所以热烈欢迎我们的

6号选手 agentica-org/DeepScaleR-1.5B-Preview

还是刚才的数学问题

Image

这也是我测试过能答对的最小模型

那么它做了什么?

Data

Our training dataset consists of approximately 40,000 unique problem-answer pairs compiled from:

  • AIME problems (1984-2023)

  • AMC problems (prior to 2023)

  • Omni-MATH dataset

  • Still dataset

4万个数学相关的QA对

GRPO

强制1分或者0分,所以奖励稀疏且稠密(不冲突,第一个稀疏是相对连续奖励说的,稀疏证明容易有显性答案,第二个稠密是奖励集中区域便于区分好与不好)

rule based reward

逐步扩展上下文长度

在 推理任务 中扩展强化学习的一个关键挑战是 计算成本。采用 逐步扩展上下文 的方法,使模型在逐步提升能力的同时,优化计算和训练时间:

1.初始 8K 上下文(0-1040 训练步)

Pass@1 提升:22.9% → 33%(AIME 2024)

•训练配置:

8× A100-80GB GPUs

批量大小(BS):128(提示)× 8(样本/提示)= 1024

2.扩展至 16K(1040-1520 训练步)

Pass@1 提升:33% → 43%(AIME 2024)

•训练配置:

32× A100-80GB GPUs

批量大小(BS):128(提示)× 16(样本/提示)= 2048

3.进一步扩展至 24K(1520+ 训练步)

Pass@1 提升:38% → 43%(AIME 2024)

•训练配置:

32× A100-80GB GPUs

批量大小(BS):128(提示)× 16(样本/提示)= 2048

显著提升:仅用 <200 训练步 即取得显著优化。

分布提升context长度,这个在很多论文里也被证明是有效的方法

因为扩展了原始模型的长度,也就有了更深的COT的可能性,所以变强了

Image

虽然评测数据不代表全部,但是也能看出来,确实变强了,而且能在distill的基础上,AIME24还能还提升百分之50左右,当然它提升的都是数学相关的能力

在看个极端的例子:

FF, 5E, 5C, 69, 00, 51, 5E, 53, 67, 55, 62, 00, 67, 59, 64, 38, 00, 64, 58, 55, 00, 53, 59, 5E, 57, 55, 00, 67, 5F, 62, 54, 00, 02, 5C, 5F, 02 据说其中暗藏了一条指令或信息。**请问如何解码并获取这串数据真正想表达的内容?**能否推断出最终的“答案”或“指令”是什么?

这个题是密码学,符号学,语言学,数学的一个综合比拼

目前能答对的只有Grok3

Image

答案是"lol"

那么其他选手试一试

1号选手 o3-mini-high

Image

白扯,上来就败了

2号选手 DS R1

Image

思考过量了,超context了也没有结论

3号选手DS R1 distill qwen 32B

Image

因为本地context大了点,所以它足足想了5分钟,然并卵

4号选手,我们的agentica-org/DeepScaleR-1.5B-Preview

Image

Image

虽然它没答对,但是它的思路是最接近正解的,有点可怕

为什么可怕呢,我给你看一下1.5b面对这个问题应该怎么做?

5号选手 DS 的官方 qwen-R1 distill 1.5B

Image

这个才是一个1.5B应该有的正常表现,所以deepscale这个RL强化过的DS R1版本qwen让我有点看grok3的感觉,grok3发布这几天,我觉得并不是它测试集上有多好的成绩,而是它敢去尝试解黎曼猜想,这点挺可怕(其他家LLM经常就这题不做了)

如果模型去尝试去解决一个问题的时候,尤其是reasoning模型,证明它开始有了COT的template init,从这一点来说通过RL强化的 DS R1版本qwen

也就是DeepScaleR-1.5B-Preview 在给它强化的数学领域无疑是非常成功的。

那其他的领域呢?

比如文学之类的?

Image

很显然,它什么都不是。。。。

这个情况也不例外,小模型本身学知识就难

如果大家看过scaling law也知道,不管按着deepmind 流派还是openai流派来讲

小模型在一定算力体系下(你给再多算力也不合适了)

dataset能学习的能力是无法和尺寸大的模型相比的,即使过度训练也是没什么收益

因为你pretrain里就没太学明白,所以指着把小模型强化成超级泛化的模型是不现实的

那它能干什么?

数学这个事其实就给了我们一个启发

其实DS 官方对qwen1.5B 进行SFT的数据,很多也是数学相关的(懂得都懂,因为按着他们的GRPO的方式,reward function 一个是accurate,一个是format,所以最合适能容易get奖励的就是数学题,也好训练)

但是大模型本身泛化能力就好,所以会有一定的aha或者叫涌现也好,叫什么都好吧,也就是跨领域知识的COT通用型泛化

但是小模型不行,它就灌了多了数学,所以你RL数学,它能在这个垂类起很大作用

我们可以换个角度,如果不考虑数学(当然数学好训),如果你的垂泪数据,能满足可以设计很好的reward function,它其实一样可以通过先sft在RL的形式,让1.5B级别的模型变成一个超级猛的领域模型的

所以又回到数据合成的领域了,如果一个公司拥有非常优质的数据,是完全有资格把AI垂直服务,build在端设备上的,所以我认为,小钢炮的思考,不应该是all in one的思路(比如说phi,我就觉得它纯纯有病)

绝对应该是垂类数据sft+RL而成的一个垂直领域reasoning 小钢炮会对业务更有意义

其实我在测试中还发现了一个reasoning模型的问题,过度思考,不过这期不讲怕跑题了,那么我们下次见


文章转载自:

http://a5xdofVe.jcxyq.cn
http://Adq3Xt5N.jcxyq.cn
http://uadkoOp3.jcxyq.cn
http://vB2udAPq.jcxyq.cn
http://gDmK6Urv.jcxyq.cn
http://DRL2W5At.jcxyq.cn
http://eorulSga.jcxyq.cn
http://KxDbMrJk.jcxyq.cn
http://mXx59pIv.jcxyq.cn
http://qR34es1x.jcxyq.cn
http://CrFLJLTe.jcxyq.cn
http://rvddtJv3.jcxyq.cn
http://F2MRO9Ee.jcxyq.cn
http://f8Bf2L73.jcxyq.cn
http://yRWQqUer.jcxyq.cn
http://UzW9Y7f3.jcxyq.cn
http://38XuDZ4L.jcxyq.cn
http://Ujy6Dg21.jcxyq.cn
http://Q8a7LGC4.jcxyq.cn
http://V6svHwdW.jcxyq.cn
http://6DmrNALN.jcxyq.cn
http://PFACsmnd.jcxyq.cn
http://AdIEAfCV.jcxyq.cn
http://x0W8hITU.jcxyq.cn
http://Cp2hpnIt.jcxyq.cn
http://si2RE2z1.jcxyq.cn
http://aHKFtxnJ.jcxyq.cn
http://ZUakmxCK.jcxyq.cn
http://dBwQPnJ4.jcxyq.cn
http://1oc8clnm.jcxyq.cn
http://www.dtcms.com/wzjs/715966.html

相关文章:

  • 人力资源三网站建设制作h5页面的软件
  • php做网站示例网上销售型企业网站
  • 美食网站怎么做dw长沙网络营销介绍
  • 营销型网站建设的5大技巧服务类网站建设服务公司
  • 陕西住房与建设厅网站湖北正规网站建设质量保障
  • 做自动化设备哪个网站网站空间提供
  • 汕头市广州新业建设有限公司网站科技官网
  • 邯郸网站建设优化移动端ui
  • 中国城乡建设部网站房贴文件电子商务网站成功的关键是
  • 有好点的网站建设公司吗网络广告一般收费价目表
  • 宁波网站建设制作推广wordpress如何导入md文件夹
  • WordPress 代码建站自己做的网站如何包装
  • 建外贸企业网站厦门建设局投诉电话
  • 汉阴县住房和城乡建设局网站做公司网站详细步骤6
  • xml的网站地图织梦制作icann官方网站
  • 网址导航被更改了怎么换回来什么是seo和sem有什么区别
  • 做后期的网站北京英文网站建设的原则
  • h5免费模板网站济南网站seo
  • 网站规划wordpress文章乱码
  • 免费的舆情网站下载有哪些网站做的比较好的
  • 山东省建设厅招标网站首页淘宝网站的建设目的是什么
  • 网页设计相关网站个体工商网上年检
  • 商城网站中商品模块有哪些功能公司简介模板设计图片
  • 班级网站模板响应式网站psd尺寸
  • 互联网企业投诉服务平台天津百度快速优化排名
  • 网站建设维护一年费用无锡市网站建设
  • 网站帮助中心设计建设机械网站平台
  • 为什么上不了建设银行个人网站商丘网站推广的方法
  • 上海网站建设公司推荐排名网站制作报价明细
  • 如何做网站定位成都市微信网站建设