当前位置：首页 > wzjs >正文

下列不属于网站开发技术的是站长之家app下载

wzjs 2025/7/28 13:59:04

下列不属于网站开发技术的是,站长之家app下载,conoha wordpress,杨浦区网站建设OpenAI在本周一推出了全新一代模型家族——GPT-4.1系列。没错，就是“4.1”，尽管OpenAI的命名方式已经让人有些摸不着头脑。这一系列包括三个型号：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。据OpenAI介绍，这些模型在编程任务和指令遵…

OpenAI在本周一推出了全新一代模型家族——GPT-4.1系列。没错，就是“4.1”，尽管OpenAI的命名方式已经让人有些摸不着头脑。

这一系列包括三个型号：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。据OpenAI介绍，这些模型在编程任务和指令遵循方面表现尤为出色。它们目前仅通过OpenAI的API提供，尚未集成到ChatGPT中。这些多模态模型拥有高达100万个token的上下文窗口，相当于一次性可处理约75万字的内容——比《战争与和平》的篇幅还要长。

编程领域的激烈竞争

GPT-4.1的发布正值AI行业竞争白热化之际。谷歌和Anthropic等公司也在加紧研发更强大的编程模型。例如，谷歌最近推出的Gemini 2.5 Pro同样具备100万个token的上下文窗口，在多个编程基准测试中名列前茅。Anthropic的Claude 3.7 Sonnet以及中国AI初创公司DeepSeek升级后的V3模型同样表现不俗。

对于包括OpenAI在内的科技巨头来说，目标是打造能够胜任复杂软件工程任务的AI模型。OpenAI首席财务官Sarah Friar在上个月伦敦的一场科技峰会上表示，公司希望开发出“代理型软件工程师”。OpenAI宣称，其未来模型将能够从头到尾独立开发完整应用，涵盖质量保证、错误测试和文档编写等环节。

GPT-4.1正是朝着这一目标迈出的一步。

GPT-4.1的优化与性能

OpenAI表示，GPT-4.1针对现实世界的开发需求进行了优化，基于开发者的直接反馈改进了多个关键领域，包括前端编码、减少不必要的代码修改、更可靠地遵循格式要求、保持响应结构和顺序一致性，以及更稳定的工具使用等。一位OpenAI发言人通过电子邮件向媒体透露：“这些改进使开发者能够构建出在实际软件工程任务中表现更出色的AI代理。”

为了体验类似的尖端AI模型，用户可以通过ChatShare镜像站访问包括GPT-4.1在内的一系列高性能模型，享受与官方服务几乎一致的使用体验。如有兴趣，可通过微信：tpami-获取更多信息或购买激活码。

OpenAI声称，完整的GPT-4.1模型在编程基准测试（如SWE-bench）上超越了其GPT-4o和GPT-4o mini模型。GPT-4.1 mini和nano则在保持效率和速度的同时牺牲了一些精度，其中GPT-4.1 nano被OpenAI称为其有史以来速度最快、成本最低的模型。

价格方面，GPT-4.1的费用为每百万输入token 2美元，每百万输出token 8美元；GPT-4.1 mini为每百万输入token 0.4美元，每百万输出token 1.6美元；GPT-4.1 nano则低至每百万输入token 0.1美元，每百万输出token 0.4美元。

基准测试表现与局限性

根据OpenAI的内部测试，GPT-4.1在SWE-bench Verified（一个经过人工验证的子集测试）上的得分在52%至54.6%之间。由于部分测试问题无法在其基础设施上运行，因此得分存在一定范围。相比之下，谷歌的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet在同一基准测试上的得分分别为63.8%和62.3%，略高于GPT-4.1。

在另一项针对视频内容的测试（Video-MME）中，GPT-4.1在“长视频、无字幕”类别中取得了72%的准确率，位居榜首。

尽管GPT-4.1在基准测试中表现不错，且其“知识截止日期”更新至2024年6月，使其对近期事件的理解更准确，但需要注意的是，即便是当前最顶尖的模型，在面对某些专业任务时仍可能出错。例如，多项研究表明，代码生成模型在修复安全漏洞或错误时常常失败，甚至可能引入新的问题。

OpenAI也承认，GPT-4.1在处理超大输入token时可靠性会下降。在其内部测试OpenAI-MRCR中，模型准确率从8000个token时的84%下降到100万个token时的50%。此外，与GPT-4o相比，GPT-4.1的理解更偏向“字面化”，有时需要更具体、明确的指令才能达到预期效果。