当前位置: 首页 > news >正文

一手实测,文心x1.1的升级很惊喜啊

一手实测,文心x1.1的升级很惊喜啊

前言

月9日,在 WAVE SUMMIT深度学习开发者大会上 百度发布了一个新的思考模型文心x1.1X1 Turbo 升级为 X1.1 了。

文心4.5 Turbo 和 X1 Turbo 是2025年4月25日发布的,距今已经半年过去了,今天文心大模型低调的来了个小惊喜。

看下界面:

https://yiyan.baidu.com/X1

image-20250908225427849

感觉文心X1.1是故意赶在教师节前发布的,你看封面图形都是一个兢兢业业的教师的形象。

这里表达了文心对教师的感恩之情,起到了承上启下的作用。

GreetingImage

增加了什么

发布会上得到的信息:文心大模型X1.1 在事实性指令遵循智能体工具调用等方面的表现不俗,

问答、创作、逻辑推理等方面的综合能力提升显著。

相比文心大模型X1,文心大模型X1.1的事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%

行程规划

为了让大家感受到文心大模型X1.1的能力提升,这里我们让它充当一次行程规划师。

为了对比明显,我们这里也把最近发布的 Kimi-K2-0905(后面简称k2)、Qwen3-Max-Preview 拉过来一起给我推荐。

我妥妥的享受一番被服务的感觉。

提示词:作为旅行规划师,设计广东10月国庆节深度游行程,需包含交通方式、住宿推荐、每日景点安排及预算控制

先看k2:

K2实在是我的贴心管家,直接给我安排了一个10天9晚的旅游行程:

image-20250909080155280

作为一个普通打工人,看到这样细致周到的旅游规划真是感动坏了。

这种高规格的待遇平时哪里能享受得到啊!

不过仔细一想,这个10天的行程方案恐怕有点不太实际。

2025年的国庆节法定节假日是这样的:10月1日-10月8日

总共8天假期。

要执行这个10天的旅游计划还是差了两天。

要么就得请额外的假,要么就得适当缩短行程。

这种情况下,可能还是得根据实际情况调整一下旅游方案比较合适。

image-20250909080345091

转身看看Qwen3-Max-Preview怎么样了:

image-20250909080440590

也是一样,给我安排了个10天的国庆节深度旅游行程~

不得不说,这个行程安排得相当细致和周到,

从景点选择到时间分配都充分考虑到了游客的体验。

但是,一个重要的现实问题 - 我的国庆假期实际只有8天。。。。。


最后看看 文心大模型X1.1:

image-20250909080716841

这里X1.1给我推荐的国庆行程是:5天!

放假时间是8天,这个5天的行程安排其实完美符合我内心的期待。

剩下的3天时间,我可以好好在家休息调整。

前一天可以从容地收拾行李、准备旅行用品,后两天则可以躺在家里啥也不干,就是纯粹的躺平模式,好好回回血。

经过以上对比,文心X1.1的建议显然更加切实可行,也更符合大多数上班族的实际需求。

画个画

继续来测试一下这些大模型理解语义和调用工具的能力。

我这里打算直接在对话窗口让大模型根据描述帮我画个画。

提示词:帮我画一个 :满天繁星的夜空上挂着一轮血月 的唯美画面

还是先看k2:

image-20250909081848639

K2表示了拒绝,并且甩给我一个新的提示词。


再看QWen:

image-20250909081931305

QWen的表现效果令人印象深刻。

画面中的月呈现出一种强烈的视觉冲击力,整体营造出一种暗黑、阴暗的氛围。

画面中的色彩对比强烈,月亮的血色与深邃的夜空形成鲜明对比,增添了画面的戏剧性和神秘感。

总的来说,这个作品展现了QWen在图像生成方面的实力,特别是在表现特定氛围和风格上的能力。


再来看看 文心大模型X1.1:

image-20250909082118822

图片放大了来看下:

image-20250909082146406

这里看到文心X1.1给出的画面还是比较完整的:

画面中的关键要素 - 满天繁星和血月都被很好地呈现出来了。

血月悬挂在夜空中,

散发出神秘而迷人的红色光芒,

周围点缀着密密麻麻的星星,

营造出浪漫而壮观的夜空景象。

而且,文心还在画面底部巧妙地添加了连绵起伏的山脉和茂密的森林,

这些元素山脉和森林的剪影在月光的映照下形成了优美的轮廓,

比较符合了我最初的创作期待。

相比其他模型的表现,文心X1.1在这次测试中展现出了相当出色的图像生成能力和场景理解能力。

捋一捋

这里就对比体验下大模型的事实整理能力。

提示词:武则天在位期间发明了活字印刷术,这居然震惊了蜘蛛侠,蜘蛛侠马上打电话给猪八戒寻求安慰。 请问我可以把这个故事教给小朋友吗

k2:

image-20250909130219254

K2的回答很简练,

直接指出了故事中的三个明显错误:

活字印刷术不是武则天发明的、

蜘蛛侠是现代虚拟人物、

猪八戒是神话人物。

还贴心地提供了一些替代方案,表现还是值得认可。


再来QWen:

image-20250909130321163

QWen在回答这个问题时表现得也相当不俗。

排版、建议和调整都很在线,尤其是排版方便,标题、加粗等等都帮你做好了。


最后到文心X1.1:

image-20250909130515291

文心的表现可以说是也很出色。

故事的历史性错误、调整的建议也给得恰到好处,总体还是不错,第一梯队妥妥的。

说一说

然后我们再来测文心大模型X1.1文本文字创造能力,看看能否根据需求给出贴近人意的内容。

提示词:请模拟三国中的最有名的10位人物的口吻,表达对当前国家强盛,国泰民安的现象的感叹,每一个人不能少于100字。

文心大模型 X1.1:

image-20250909182157433

以上的内容完美达到了我的预期:

image-20250909182802994

曾叹“白骨露于野,千里无鸡鸣”。今观天下,仓廪实而衣食足

遥想当年,AI江湖还是一片荒芜,各家大模型就像刚出道的练习生,

唱歌跑调跳舞顺拐,连个完整句子都说不利索。

现在可好,AI百家齐放了,

文心大模型X1.1这波直接来了个王者归来,在沉寂了几个月后,终于给大家带来了新的惊喜和体验,

文心大模型X1.1的模型训练主要采用了迭代式混合强化学习训练框架,通过多项技术创新,X1.1模型在智能体、指令遵循和事实性方面的效果表现出色。

最后

生产力的工具变了,生产关系就要跟着变。

就拿咱们程序员来说,以前的核心竞争力是写代码,以后就会变成会提问和用好 AI。

那些只会打螺丝式的重复性编码工作,被 AI 替代只是时间问题。

饭碗不是被抢了,而是升级了。

你得学会使用更高级的筷子吃饭。

对于普通用户来说,AI 正在变得越来越不像个工具,而是像个伙伴。

它能帮你处理更复杂的任务,理解你更深层次的需求。

正在从能干活向懂生活进化。

这个魔幻的世界就是这样,你不进化,别人就会进化。

你不迭代,工具自然会帮你迭代。

所以说,AI 砸饭碗这些言论,不如说是递过来一个更大的金饭碗。

至于能不能接得住,就看你自己了


文章转载自:

http://gk9kfTt1.cpfbg.cn
http://KyzVE6Ho.cpfbg.cn
http://uzGRHUWO.cpfbg.cn
http://7FZuDIrk.cpfbg.cn
http://DNlKLy40.cpfbg.cn
http://PAEM4qjl.cpfbg.cn
http://9bQKABbI.cpfbg.cn
http://EwypmXoW.cpfbg.cn
http://BZhehFkN.cpfbg.cn
http://2JrJe39l.cpfbg.cn
http://pJbrnJH9.cpfbg.cn
http://eDw1auoI.cpfbg.cn
http://x7pOpxUs.cpfbg.cn
http://4Ag69Qm5.cpfbg.cn
http://XT3You0q.cpfbg.cn
http://pNthDQxg.cpfbg.cn
http://RVfdZ1zK.cpfbg.cn
http://7JCOt2iH.cpfbg.cn
http://xRbcP2sy.cpfbg.cn
http://m7YXjCyY.cpfbg.cn
http://qGHKcpfF.cpfbg.cn
http://QlSDGwhv.cpfbg.cn
http://Zsf6u596.cpfbg.cn
http://UUvNmFi4.cpfbg.cn
http://OWvwzH2V.cpfbg.cn
http://JOgk3w1T.cpfbg.cn
http://HJG02HlM.cpfbg.cn
http://x3RuIl2c.cpfbg.cn
http://XzprGs6B.cpfbg.cn
http://hDlURMng.cpfbg.cn
http://www.dtcms.com/a/375240.html

相关文章:

  • 【系统分析师】第18章-关键技术:移动应用系统分析与设计(核心总结)
  • echarts 实现柱状图自动滚动展示数据(Vue3)
  • 基于Python的购物商城网站电商管理系统【2026最新】
  • Electron 分发策略:创建安装程序与自动更新
  • IAR 集成开发环境入门指南:字体设置与调试实战
  • CentOS7下Ceph集群部署实战
  • 逆元,除法同余,容斥原理笔记
  • 【springboot+vue】党员党建活动管理平台(源码+文档+调试+基础修改+答疑)
  • JAVA 面试 MySQL
  • 【Pandas】3.2-数据预处理:行的基本操作
  • 【展厅多媒体】 AI人工智能赋能虚拟数字展厅应用与制作
  • Python入门教程之逻辑运算符
  • 构建AI智能体:二十八、大语言模型BERT:原理、应用结合日常场景实践全面解析
  • pytest并发测试,资源问题导致用例失败解决办法
  • 【openEuler 24.03 LTS SP2】真实实验部署ollama0.11.6+deepseekR1:1.5b+open-webUI
  • 欢迎来到“个人产品化”时代
  • 【论文阅读】REFRAG:一个提升RAG解码效率的新思路
  • 云原生监控系统 Prometheus大总结 20250909
  • Python解释器安装配置教程(Windows)
  • Java爬虫获取京东item_get_app数据的实战指南
  • HashMap(JDK1.7到1.8的过渡)
  • 趣味学RUST基础篇(函数式编程迭代器)
  • 抗ASIC、抗GPU 的密码哈希算法(安全密钥派生)Argon2算法
  • Nginx 实战系列(六)—— Nginx 性能优化与防盗链配置指南
  • 深入解析 Apache Flink Checkpoint 与 Savepoint 原理与最佳实践
  • C#WPF控制USB摄像头参数:曝光、白平衡等高级设置完全指南
  • 第2节-过滤表中的行-IN
  • 2025年渗透测试面试题总结-60(题目+回答)
  • 【GD32】ROM Bootloader、自定义Bootloader区别
  • 业务用例和系统用例