当前位置: 首页 > news >正文

从 Cluely 融资看“AI 协同开发”认证:软件考试应该怎么升级?

AI 工具大爆发,软件考试却还停在“纯手写”时代?

2025 年 6 月,一个标语写着 “Cheat on Everything”(对,意思就是“什么都能开挂”)的 AI 初创公司——Cluely,正式宣布获得由 a16z 领投的 1 500 万美元 A 轮融资,估值超过 1.2 亿美元。

这家公司做的事情很简单:通过屏幕监听和耳机传输,在你参加技术面试或考试时,实时将“正确答案”悄悄喂给你,让你“静音开挂”。媒体称它为“AI 面试外挂中的 OpenAI”,而创始人 Roy Lee 原本是哥伦比亚大学计算机系的学生——因打造 Cluely 被校方处分后反而爆火。

乍看之下,这是“作弊的胜利”,但它真正反映出的,是一个更深层的问题:

当前的软件考试制度,正逐渐与现实开发脱节——而 AI 的普及,正在把这个裂痕撕得更大。

一方面,GitHub Copilot 的官方实验显示,使用 AI 编码助手的开发者完成同等任务速度提升高达 55.8%; 另一方面,Stack Overflow 的最新调查显示,76% 的开发者已在使用或打算使用 AI 编码工具,AI 编程早已从边缘走向主流。

但讽刺的是:在这些 AI 工具成为工作中“标配”的同时,我们的软件认证考试、招聘面试、能力测评……仍然要求“全程禁用 AI 工具”,甚至模拟封闭环境,禁止联网。

这就导致一个现实落差:

  • 企业实际在用的是“AI 辅助开发力”;

  • 考试却仍在比谁能手动拼字符串、背 API 或从零造轮子。

这不仅效率低,更不公平。 而 Cluely 的崛起,正是这种“压抑真实能力 + 防不胜防”机制下的必然产物。

趋势已定:不会用 AI 的工程师,正在被生产力曲线边缘化

AI 在开发流程中的定位,已经从“可选插件”变成了“效率引擎”。

1. Copilot 实测:写同样功能,快 55%

GitHub 发布的一组实验数据指出,开发者在执行同一任务时(如用 TypeScript 编写 HTTP 服务),启用了 Copilot 的那一组平均提速 **55.8%**。在具体细节上,AI 编码助手不仅提升了敲代码的速度,还自动补齐了一些边界检查、容错逻辑、语义注释,甚至包括测试样例的初步生成。

也就是说,AI 正在接手人类开发中大量重复性、模板化、规则明确的那部分工作。

2. Stack Overflow 调研:76% 开发者正走向“协同模式”

2024 年度 Stack Overflow 报告指出,已有 44.7% 的开发者在日常工作中使用 AI 工具,另有 31.5% 表示“计划一年内开始尝试”。如果按这个速度来看,AI 编码助手的渗透率将在 1–2 年内超过传统 IDE 插件的使用量。

这意味着一个现实:

“不会使用 AI 辅助编程工具”的工程师,正在被主流生产节奏边缘化。

3. 从“工具”到“战术”的角色跃迁

AI 的能力已经不止是写几行代码,它更像是一个代码助手 + 逻辑规划器 + 测试补全员的集合体。工程师需要具备的不仅是“调用”它的能力,更是“指挥 + 控制 + 校正”它的策略:

  • 你能否把一个含糊需求,翻译成 AI 能懂的 Prompt?

  • 当 Copilot 写错逻辑时,你能否在第一时间识别错误的根因?

  • 你是否有意识将多个 AI 工具(如 ChatGPT + Tabnine + 自研 LLM)组合协同?

这些能力本质上不再是写代码的手速竞争,而是人机协同的策略竞争

升级路径:软件认证考试如何拥抱 AI 而不失公平性?

如果说 Cluely 的崛起击中了“防 AI 考试机制”的破绽,那解决之道绝不应是更严密的监控或技术封堵,而是彻底转向一套更合理的体系——承认 AI 存在,并把“人+AI”的协同能力纳入考试范围,成为正式评分标准。

这就意味着,软件考试的设计要从“闭卷手写”模式,转向“人机协同评估”模式,不仅允许使用 AI 工具,还要明确考察以下三种能力:

1. Prompt 构造能力

考察内容:

  • 能否将业务需求有效拆解成适用于 LLM(如 ChatGPT、Claude)的指令?

  • 是否能根据模型输出及时优化提示词,避免逻辑偏差或上下文丢失?

  • 是否会控制输出格式,要求代码/测试/文档结构完整?

评分方式:

  • 自动记录 Prompt 日志,评估其准确性与迭代效率;

  • 对比生成结果的质量、可运行性与可读性;

  • 按“有效交互次数 / 总交互次数”设 Prompt 利用率。

2. AI 使用策略与模型协同

考察内容:

  • 是否能合理选用不同模型解决特定子任务?(如 Claude for 文档,Copilot for实现)

  • 是否具备 fallback 策略(当某模型输出无效时,是否尝试切换方案而非盲重试)?

  • 是否能控制 AI 输出“只提建议、不乱改已有代码”?

评分方式:

  • 统计模型调用分布(如是否滥用一个模型而忽视更适合的工具);

  • 查看是否存在“AI 输出完全未校验直接提交”的风险路径;

  • 检查是否有 Prompt chaining 与提示词分层结构。

3. 人类收束与最终交付质量

考察内容:

  • 最终代码是否能成功运行?

  • 测试覆盖率是否达标?是否包含必要的边界条件?

  • 结构是否清晰、模块是否可扩展?

  • 文档是否准确描述了功能、部署与风险点?

评分方式:

  • CI/CD 自动化管道测试 + 静态代码扫描;

  • Linter & Test Report 自动评分;

  • 生成项目“协同报告” + 模块责任归因图。

一个协同开发认证(AI-Enhanced Coding Certification)样例流程如下:
阶段时长允许使用评分维度
模糊需求理解 + 拆解30 分钟ChatGPT / Gemini / Claude架构设计、接口定义、模块拆分
Prompt 驱动开发60 分钟任意 AIPrompt 准确性、AI 输出采纳效率
调试 + 优化30 分钟任意 AI错误修复时间、重构策略
部署与文档撰写30 分钟任意 AI可运行性、可维护性、说明完整度
  • AI 工具不限(Cluely、Copilot、Notion AI、Custom Plugin 均可)

  • 全过程记录协作轨迹与行为序列(Prompt → AI 输出 → 人类修改 → Commit)

  • 最终交付 = 项目代码 + CI 通过报告 + 协同评分报告

商业机会:人-AI 协同认证背后的双重红利

技术标准的升级,往往意味着新平台、新工具与新商业入口的诞生。AI 协同开发考试不仅是一次教育或测评机制的升级,更是一次开发者生态重构 + 招聘闭环改造 + 新工具市场启发的合力事件。

1. 对企业:从人岗匹配 → 实战交付力匹配

当前大多数企业招聘仍依赖笔试题、算法题、简历筛选、面试问答,而这些信息并不能真实反映一个人“在团队中如何使用 AI 工具完成交付”的能力。而一套真实开发场景下的协同认证系统,可以带来:

  • 更准确的人岗匹配:候选人能否合理调用 AI、Prompt 写得是否清晰、是否能快速修 Bug,这些直接影响投产后交付节奏。

  • 降低试用期不匹配成本:无需等 2 个月试用观察,只需一次真实“AI 全开”的开发任务,能力立现。

  • 内部能力盘点标准化:企业也可将此模型引入内部评估,如 DevRel、Team Tech Ladder 构建。

💡 Gitpod、Replit 等 Dev Environment 平台,已经在测试内嵌协同日志与“AI 分工标签”的机制。

2. 对招聘平台和认证方:构建“AI 协同评分标准” = 新基础设施

正如 TOEFL、GRE 等考试定义了语言能力的标准化评估,未来人-AI 协同考试也可能成为:

  • AI 原生开发者的全球职业准入门槛

  • 面向远程协作、开源社区、AI 代理协同项目的候选人筛选标准

  • AI SaaS 工具服务商用于“评估使用价值”的数据源

构想一个未来场景:

每位开发者都有一个“AI 协同开发画像”:模型使用谱系、平均 Prompt 精度、Debug 成功率、团队贡献分布……

这不仅能服务 HR 招聘,也能服务项目资源调度、开源治理、分包报价,甚至是 AI 工具自身的推荐算法优化。

3. 可扩展的产业链机会图谱
环节机会场景创业 / 商业模式
考场平台Dev 容器 + 日志采集 + 模型沙箱SaaS / 开源框架 / 内训平台
Prompt 评分器自动提取 Prompt → AI 输出 → 人类反馈路径插件 / CLI 工具 / 评分引擎
协同行为分析Prompt-Commit 行为数据分析、迭代路径建模数据产品 / API-as-a-Service
认证发行方AI 协同开发者职业认证 / 高校联合标准联盟共建 / 招聘平台直通车
总结一句话:

谁能定义“什么样的人会用 AI”,谁就能构建新一代开发者生态的准入标准与基础设施。

而现在,这场定义权争夺才刚刚开始。

不再比“能不能写代码”,而是比“如何指挥 AI 写对的代码”

AI 正在重塑软件开发的逻辑起点。不是因为它会写代码,而是因为它写得越来越像一个团队成员——从建议函数、自动测试、逻辑优化,到文档补全、版本控制、性能分析,它正在接手越来越多“标准化思维”。

如果我们还在用旧的考试体系比拼“你能不能独立从零敲出一个完整模块”,就像在当下的工程师战场上,比谁用得最少 IDE 插件、谁从不复制 Stack Overflow 答案、谁硬背最多 API 文档。

这样的技能维度,早已与实际的生产力曲线背离

真正代表未来价值的,是:

  • 你能不能构造出一个高质量 Prompt,引导 AI 写出正确、结构清晰、可测可维护的代码;

  • 你能不能识别 AI 输出的 Bug、风险逻辑和上下文偏差,并进行修正;

  • 你能不能搭建出一个让人类与 AI 协作高效、日志清晰、责任明确的交付过程。

也正因如此,我们主张将软件考试全面升级为 “AI 协同开发认证模型 3.0”: 允许所有工具,开放所有接口,评估的不是“你能不能不用 AI”,而是你用 AI 的方式是否比别人更高效、更专业、更有判断力。

评论互动(Call to Action)

如果明天你要参加一次“允许使用任意 AI 工具”的软件开发考试, 你最想带哪一款工具进场?ChatGPT?Copilot?Cluely?Claude?Notion AI?还是你私藏的 LLM Prompt 模板?

📩 欢迎在评论区告诉我: 你如何看待未来考试中“AI 合法化”的趋势? 它真的会让“程序员退化”吗?还是反而会倒逼我们进化?

相关文章:

  • PaddleOCR + Flask 构建 Web OCR 服务实战
  • 论文笔记:Large language model augmented narrative driven recommendations
  • es向量检索里的efSearchc参数是干嘛用的
  • 装配体镜像阵列与爆炸视图-装配体设计技能(2)
  • Hologres的Table Group和Shard简介
  • 秘塔AI搜索:国产无广告智能搜索引擎,重塑高效信息获取体验
  • c# .netCreateLinkedTokenSource链接令牌,取消信号异步执行
  • 使用模板创建uniapp提示未关联uniCloud问题
  • 考研408《计算机组成原理》复习笔记,第三章(1)——存储系统概念
  • leetcode:面试题 08.06. 汉诺塔问题
  • Linux->进程概念(精讲)
  • Golang 中接口嵌套的详细说明和使用示例
  • K8s入门指南:架构解析浓缩版与服务间调用实战演示
  • GetX 实现 MVVM 架构, 高效 路由管理 和 状态管理
  • Maven生命周期,测试
  • Oracle导入导出 exp命令和imp命令 expdp命令和impdp命令 19c导出兼容11g版本的dmp然后使用11g导入dmp
  • 算法-动态规划-钢条切割问题
  • Python商务数据分析——Python 入门基础知识学习笔记
  • 零基础学习Redis(14) -- Spring中使用Redis
  • Go语言--语法基础6--基本数据类型--数组类型(1)
  • 成都网站建设招聘/20条优化措施
  • 自己网站视频直播怎么做/广东东莞疫情最新消息
  • 陈村建网站/网站seo排名优化软件
  • 运营一个企业网站的推广方案/客源软件哪个最好
  • 在谷歌上做英文网站/凯里seo排名优化
  • 做网站怎么导入地图/重庆网站seo诊断