OpenAI全新旗舰款模型GPT4.1系列
OpenAI此次发布了全新旗舰系列模型GPT4.1系列,包含了GPT4.1,GPT4.1 mini和GPT4.1 nano。接下来说一下GPT4.1系列的指标评测和计费情况。
-
指标对比
-
长文本能力
本次升级的一个重要特色就是上下文从128K提升到了1M,并且上下文能力有显著提升。
-
智力水平与响应速度
GPT4.1与GPT4.1 mini相比GPT-4o系列有着更好的智力能力
-
代码能力
官方展示GPT4.1系列在SWE-bench Verified和Aider's polyglot测试集中的表现。
在SWE - bench Verified测试中,会给模型提供一个代码仓库和问题描述,模型必须生成一个补丁来解决该问题。
在Aider's polyglot基准测试中,模型通过编辑源文件来解决来自Exercism的编码练习,允许重试一次。“Whole”格式要求模型重写整个文件,这可能会比较耗时且成本较高。“Diff”格式要求模型编写一系列的搜索/替换块。
-
指令遵循能力
在指令遵循能力方面GPT4.1略逊于GPT4.5及o3-mini-high,但是比GPT4o强很多,并且GPT4.1 mini在指令遵循能力方面与GPT4.1相当
-
视觉能力
-
价格对比
整体来说,性能方面GPT4.1和GPT4.1 mini是全方面包围GPT4o和GPT4o mini。接下来对比GPT4.1相比其他模型的价格。