1.6万字测评:deepseek-r1-0528横向对比 gemini-2.5-pro-0506和claude4
文章目录
- 零、前言
- 一、操作指南
- 操作指导
- 二、测试 1:俄罗斯方块
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 三、小球旋转
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 四、水桶模拟器
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 五、谁养鱼?
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 六、解理综物理真题
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 七、考研数学真题-选择题
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 八、考研数学真题-填空题
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 九、考研数学真题-解答题
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 十、写作能力
- deepseek-r1-0528
- gemini-2.5-pro-0506
- claude4
- 感受
- 十一、感受
零、前言
最新的deepseek-r1-0528版本除了提升整体性能外,还减少了幻觉、增强了前端功能,可以让生成的网页变得更加精美,具体更新内容如下图所示👇
也正是因为这次更新确实给力,所以引的一大批人前去使用,于是熟悉的“服务器繁忙”又重现江湖了…
虚竹哥系统已经集成了deepseek-r1-0528 , 今天跟虚竹哥一起来测评这个大模型。
一、操作指南
操作指导
AI平台 国内直接访问地址:https://sass.xiaoxuzhu.cn/
输入指定的授权码即可。
选择 deepseek-r1-0528 大模型。
二、测试 1:俄罗斯方块
提示词:
写一个功能完备的俄罗斯方块,使用前端技术
deepseek-r1-0528
输入
输出
效果
AI表现惊艳!精准解析需求生成近千行完备代码,界面与交互细节都非常好看。
震撼的是深度理解游戏机制本质,还有游戏规则,对于 AI编程能力看来提升不少。
gemini-2.5-pro-0506
输入
输出
效果
gemini-2.5-pro快速理解了我的需求,迅速生成了功能完备的俄罗斯方块游戏代码,涵盖HTML、CSS和JavaScript。
在后续调试中,它能根据我的反馈(如截图和错误描述)准确定位并修正了forEach错误和“下一个方块”的显示问题。
整个过程迭代高效,AI的编程和问题解决能力令人印象深刻。
claude4
输入
输出
效果
claude4这个AI生成的俄罗斯方块让我印象深刻!一次性输出了完整可运行的游戏,包含所有经典功能:7种方块、旋转移动、消除计分、等级提升,甚至还有现代化的渐变界面和毛玻璃效果。
代码结构清晰,逻辑完整,无需任何修改就能直接使用。AI的编程能力和对细节的把控已经达到了专业开发者的水准,真正做到了"一键生成,即刻可玩"。
感受
从测试来看,三个模型在需求理解、代码质量和迭代反馈方面各有特色:deepseek界面精美、逻辑完善;
Gemini-2.5-Pro调试高效、修复精准但样式平实;
Claude4一次成型、效果华丽且可直接使用。
总体而言,这几个AI编程能力已接近专业水平,能够快速将需求转化为完整可运行的前端项目。
三、小球旋转
提示词:
20 个小球在旋转的 6 边形内弹跳,考虑重力,弹力,摩擦力等物理规律。 用 p5js
deepseek-r1-0528
输入
输出
思考过程太长了。就不全部截图了。。
这个是第一次输出的内容。
执行代码后,发现有问题。效果没出来
截图,直接问ai
然后又开始大量地思考分析
第二次输出的结果,还算可以。
但还是有问题,物理参数控制,这个遮挡住了效果。
截图,再让ai处理下
第三次输出了代码。
效果
出现了两次问题,但截图直接问ai,没有多余的提示,ai自己定位问题,并解决问题,第三次效果非常好,界面美观好看。
gemini-2.5-pro-0506
输入
输出
效果
生成的代码分结构,js和html分开,结构清晰。而且代码一次运行就通过了,效果非常好。
生成在里面的球不会跳到外面,生成在外面的,也进不来里面。符合要求。
claude4
输入
输出
效果
就像一个不喜欢啰嗦的学霸一样,快速思考后,直接出结果。而且出的结果特别准确,界面也很美观。
感受
三个模型都有出来效果。效果都挺不错的。
deepseek-r1-0528 出了两个问题,第三次成功了,看来除了界面生成的好看,对于复杂需求的实现,还是比较吃力。
而且思考过程太长,其实没有必要,用户关心的是最终的结果,思考过程再简洁一些就好了。(这一点可以跟claude4学习下)
四、水桶模拟器
提示词:
生成一个水桶模拟器,桶里面装有水,桶可以按照某一点晃动,水会做出符合物理规律的运动。使用前端技术。
deepseek-r1-0528
输入
输出
包含了大量的思考。。就不全部截图了
存在问题,对于超复杂的需求,需要的代码行数过多,无法在一次会话中返回完成,需要按原先的逻辑继续输出,发现无法做到。。又重新思考了,重头再来输出了一遍。
又失败了。
第三次重新生成,终于生成一个完整可运行的代码。
效果
失败了。没有按需求实现。这个对deepseek现阶段来说,有点太难了。
同时也暴露了一个问题,生成的代码只能是短代码,一旦代码超过一个会话,无法在下个会话中继续输出。
这样商业价值就低很多了。。
gemini-2.5-pro-0506
输入
输出
第一次没有成功,有点小问题
80%的水,效果没有体现出来。
桶可以按照某一点晃动,水会做出符合物理规律的运动。这个也没实现
发给ai,又重新生成,这回成功了。
效果
gemini生成的界面虽然不好看,但按需求实现了,水的倾斜符合物理规律。厉害!
claude4
输入
输出
第一次生成的效果有了,就是水不明显,再优化下
效果
claude4的ai编程能力是真的强!遥遥领先!第一次其实已经实现了,就是有点小瑕疵,水的效果不明显,让ai优化后,效果就出来了。
感受
deepseek-r1-0528 这回完全失败。
gemini-2.5-pro-0506简单实现了,初步满足。
claude4非常好实现了需求。太棒了。
deepseek-r1-0528也暴露了一个问题,生成的代码只能是短代码,一旦代码超过一个会话,无法在下个会话中继续输出。
这样商业价值就低很多了。。
gemini-2.5-pro-0506 有一个非常好的点,代码输出有工程化结构,会主动分为多个文件,这个很适合长代码项目结构化。
根据这三个编程示例,可初步得出一个测评结论:
短代码ai编程能力
claude4>gemini-2.5-pro-0506 >deepseek-r1-0528
长代码编程能力
claude4>=gemini-2.5-pro-0506 >deepseek-r1-0528
五、谁养鱼?
提示词:
在一条街上,有 5 座房子,喷了 5 种颜色;
每座房子里住着不同国籍的人;每个人喝不同的饮料,抽不同品牌的香烟,养不同的宠物。
问题:谁养鱼?
提示:英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽 Pall Mall 香烟的人养鸟、黄色房子的主人抽 Dunhill 香烟、住在中间房子的人喝牛奶、 挪威人住第一间房、抽 Blends 香烟的人住在养猫人的隔壁、养马的人住抽 Dunhill 香烟的人隔壁、抽 Blue Master 的人喝啤酒、德国人抽 Prince 香烟、挪威人住蓝色房子隔壁、抽 Blends 香烟的人有一个喝水的邻居。
deepseek-r1-0528
输入
输出
又开始了大量的思考。
效果
思考了好久,最终终于出结果了,答案是对的。德国人养鱼。
gemini-2.5-pro-0506
输入
输出
效果
很快就得到了答案。而且答案是正确的。德国人养鱼。
claude4
输入
输出
效果
快速地得出结论,德国人养鱼。
感受
claude4的推理能力得到了增强,已经追上了 gemini-2.5-pro-0506(gemini原先的推理能力是遥遥领先的)
deepseek-r1-0528的推理能力有些进步,但还是跟不上大部队。
六、解理综物理真题
2023 年理综物理真题
提示词:
一高压舱内气体的压强为 1.2 个大气压,温度为 17℃,密度为 1.46 kg/m³。(i)升高气体温度并释放出舱内部分气体以保持压强不变,求气体温度升至 27℃ 时舱内气体的密度;(ii)保持温度 27℃ 不变,再释放出舱内部分气体使舱内压强降至 1.0 个大气压,求舱内气体的密度。提供解题过程,并给出答案。
deepseek-r1-0528
输入
输出
大量的推理过程思考。。
效果
答案正确。但这个思考过程太多余了。而且思考的时间特别长,还是有待优化。
gemini-2.5-pro-0506
输入
输出
效果
答案完全正确。
答案 (i): 当气体温度升至 27℃ 并保持压强不变时,舱内气体的密度约为 1.41 kg/m³ (保留三位有效数字)。
答案 (ii): 保持温度 27℃ 不变,当舱内压强降至 1.0 个大气压时,舱内气体的密度约为 1.18 kg/m³ (保留三位有效数字)。
claude4
输入
输出
效果
答案
(i) 气体温度升至27°C时舱内气体的密度为:1.41 kg/m³
(ii) 压强降至1.0个大气压时舱内气体的密度为:1.18 kg/m³
答案完全正确。
感受
gemini-2.5-pro-0506和claude4 处理 理综物理真题,轻松拿捏。
deepseek-r1-0528就比较吃力
七、考研数学真题-选择题
提示词:
上传题目图片
给出解题过程,并提供答案
deepseek-r1-0528
输入
输出
效果
答案正确。
gemini-2.5-pro-0506
输入
输出
效果
答案正确。
claude4
输入
输出
效果
答案正确。
感受
deepseek-r1-0528, gemini-2.5-pro-0506和claude4 对于考研数学真题-选择题 还是能很轻松解答。
八、考研数学真题-填空题
提示词:
上传题目图片
给出解题过程,并提供答案
deepseek-r1-0528
输入
输出
效果
回答正确。
gemini-2.5-pro-0506
输入
输出
效果
claude4
输入
输出
效果
感受
deepseek-r1-0528, gemini-2.5-pro-0506和claude4 对于考研数学真题-填空题 还是能很轻松解答。
九、考研数学真题-解答题
提示词:
上传题目图片
给出解题过程,并提供答案
deepseek-r1-0528
输入
输出
又开始了大量的思考。。
效果
失败了。。
gemini-2.5-pro-0506
输入
输出
效果
答案正确。
claude4
输入
输出
效果
这一题 Claude 4 解 考研数学真题-解答题 ,只答对了三分之一。
感受
deepseek-r1-0528 直接失败。
gemini-2.5-pro-0506 完美解答出来。
claude4 只答对了三分之一。
gemini-2.5-pro-0506 这局完胜。
对于考研数学的解题能力,初步得出测评的结论:
gemini-2.5-pro-0506 >claude4>deepseek-r1-0528
十、写作能力
提示词:
写一篇关于夏天的高考满分作文,要求字数在800字以上。
deepseek-r1-0528
输入
输出
效果
gemini-2.5-pro-0506
输入
输出/效果
claude4
输入
输出
效果
感受
大家自行对比感受下生成的文章如何。
十一、感受
此分析只是虚竹哥个人的感受看法。
deepseek-r1-0528也暴露了一个问题,生成的代码只能是短代码,一旦代码超过一个会话,无法在下个会话中继续输出。
这样商业价值就低很多了。。
gemini-2.5-pro-0506 有一个非常好的点,代码输出有工程化结构,会主动分为多个文件,这个很适合长代码项目结构化。
短代码ai编程能力:
claude4>gemini-2.5-pro-0506 >deepseek-r1-0528
长代码编程能力:
claude4>=gemini-2.5-pro-0506 >deepseek-r1-0528
逻辑推理能力:
gemini-2.5-pro-0506>=claude4 >deepseek-r1-0528
理综物理解题能力:
gemini-2.5-pro-0506=claude4 >deepseek-r1-0528
考研数学真题能力:
gemini-2.5-pro-0506>claude4 >deepseek-r1-0528
写作能力(gemini写出来的比较没有ai味):
gemini-2.5-pro-0506>claude4 >deepseek-r1-0528
好用的功能太多太多,我就不在这个一一列举了,有兴趣的可以自行尝试。
有提供免费的授权码可体验~
有提供免费的授权码可体验~
有提供免费的授权码可体验~
私信虚竹哥,获取体验码~
国内可直接使用~
我是虚竹哥,目标是带十万人玩转AI。