当前位置：首页 > news >正文

「新」AI Coding(Agent) 的一点总结和看法

news 2025/7/4 18:50:26

「新」AI Coding(Agent) 的一点总结和看法我们曾认为它看到的世界，或者它眼里的一生中，似乎只有美好的春节和夏季。但现在，我们已知晓它经历的秋季和冬季其实无比艰难和“黑暗”，是一种真正意义上的向死而生。https://mp.weixin.qq.com/s/XkWShtaKZIsUrlP2Rw6Jvg?token=857131514&lang=zh_CN

最近(2025-02) 在DeepSeek 的影响下，可以说AI/LLM 全民皆知，基于最近AI(DS)的爆炒，我们到底需要关注什么？也有讨论，作为程序员当然首当其中，而作为深度参与其中的程序员，在各种 XXX 要被AI替代的宣传中带着极其复杂的情感，既有对新技术的好奇，又带着对其他人的负罪感，最后好像甚至要把自己也削掉的莫名其妙感。这篇草稿总结改了删了很多次，这次勉强阶段性总结得差不多。

为什么要专门谈AI 对编程方面的辅助(Copilot, Agent etc)，在业务端Agent 之后是什么？MCP(Model Context Protocol) 是个什么东东？讨论很多了，这次单纯讨论自己吃饭的手艺。

前提

n0+年程序员老兵
深度AI应用产品开发者
深度AI使用者
一个AI Coding 工具设计开发者
近期(2025-02)AI Coding 大量深度的讨论（参考文末参考）

总结

自然语言交互门槛很低，对非编程人员十分友好！

AI Coding 擅长：

一类是小产品，比如个人生活类的APP助手；
一类是以内容为主的网站，其代码量和难度适中，AI能够自主实现；
一类是办公产品，比如Excel表格编辑、数据汇总等。

对于一个公司的工程化项目，还是很难直接全盘交给AI，工程化项目要求的流程多，也需要多部门协作，而AI没办法看到全局。

现在的制衡是 Coding Agent 其实无法或者和人一样的访问权限，想象可以自由操作电脑上所有资源，一部分是因为权限问题，一方面现在系统和AI的世界桥梁没有打通。

大型工程仍需要人类程序员来掌握软件开发过程中的不确定性，比如架构设计、领域建模等，把已经确定性的内容拆解开来，比如模块开发、找安全漏洞、补充测试用例等，并交付给AI，让其根据人类的指令做这些确定性的工作。

主要摘录： 5万字解读 Coding Agent & OpenAI o3 [2025-02-10]

从 Coding Agent 到通用 Agent 的跃迁：　

全栈进化： AI 代理正由单一代码编写转向需求分析、架构设计、测试与部署全流程。
跨界交互：未来 AI 将能像人一样操控图形界面，摆脱 API 限制。
自我进化闭环：
AI 有望自主优化代码、进行训练，终实现类似 AGI 的自我迭代。

Agent 未来从junior engineer晋升到senior engineer 需要提升的能力：　

信息获取能力要与人类处于同等水平。我们人类能够访问到的所有信息渠道，这个Agent就必须能访问到；ComputerUse BrowserUse,MCP，Operator 解决这个，如果大模型获取和真人一样权限其实都能干了！一旦技术统一，AI 就能大展拳脚
model本身的能力也很重要，特别是planning能力、从错误中恢复的能力
要有积极主动的特质，需要在恰当的时机主动询问；确保未经授权操作绝不执行安全
如果一个工作能被总结成人类坐在电脑前通过和电脑交互能完成的，那基本上都能被Agent化。
Agent时代的新变现模式：不再是传统 SaaS 的卖工具，而是卖生产力；Software as Service, Service as Software
创业并不是一定要训练自己的模型，而是要和模型形成一种更紧密的共生关系。核心竞争力在于如何把模型用好，以及对用户实际工作流程的深刻理解。
要保持乐观和敬畏：虽然我们现在用的是能获得的最好模型，但如果明天能拿到新版本，情况可能就完全不同了。

外围的工程化是否有风险？比如现在自带 Reason （DeepSeek&DeepResearch, Inference & Reasoning, MoE & Multimodal），还有本身基础模型不停升级，最大化利用这个基础模型，甚至硬件带来的升级，是否让很多外围工程优化作用削落，甚至成为掣肘？

依赖LLM自己的能力，通过历史的action的observation去生成新的action，决定下一步该做什么。这种设计的好处是能最大程度享受到model更新带来的improvement。相比之下，如果用prompting heavy API的方法，可能享受不到直接用LLM生成action带来的这些提升。这是我们早期的一些Agent design decision。

对于很多垂直领域来说，agent 的能力会有较大的提升。可以先拿出一个基础模型，把一些规则做成规则模型（rule model），这个规则模型可能是一个纯粹的工程解决方案（pure engineering solution）。然后，可以用这个工程解决方案来让基础模型在上面进行迭代（iteration）和训练（training）。你可能会得到一个结果，这个结果已经出现一些超人类智能（super human intelligence）的能力。在这个基础上，再进行一些偏好调整（preference tuning），让它的回答更加符合人类的阅读习惯（human-readable），这样你可能就能得到一个在某个垂直领域上更强大的推理 agent；
这可能会带来一个问题，你可能无法拥有在所有垂直领域都具有很强泛化能力的 agent。在一个特定领域训练出一个 agent 后，它只能在那个领域工作，而无法泛化到其他垂直领域。但这是一个可能的（落地）方向，因为 DeepSeek 本身带来的推理成本（inference cost）很低，可以选择一个模型，然后进行一系列强化训练，训练完成后，它只服务于某个垂直领域，不再关心其他垂直领域。对于垂类 AI 公司来说，这是一个可以接受的解决方案。

Codeium 强调自身产品的最大亮点在于强大的 context awareness，在所有任务中都会考虑临近文件，乃至整个存储库，并可以自定义固定上下文。其中最能显著展现上下文能力的用例是企业级代码库的语义搜索。

通用大模型(Code模型)，是对公开code的提炼，但是企业内部项目有自己复杂的上下文，是通用模型不知的，包括企业内部固有的架构和业务风格，这些小到具体项目上下文，亦或公司代码标准，需要在coding agent 中关注，具体项目可以通过AST 语法分析，抓取热点，核心 flow, sequence 来缩小窗口大小，也可以通过RAG 方式直接对准企业代码库或者规范；这个里面可能从基础设施下手更容易，比如CI/CD, gitlab, gitea 类似git服务器。

Windsurf 找到了 Agentic IDE 平衡的产品体验，将开发者置于 “copilot” 的位置，把适合自动化的多步任务交给 Cascade 系统接管。根据用户反馈，Cursor 产品体验很棒，但开发者仍主导了开发过程；而 Devin 在处理复杂问题时成功率不高、人类难以介入帮助 agent。这一设计不仅更能促进产品经理等强动机、弱开发能力的 prosumer 用户增长，还可能让 Codeium 得以打开企业客户的预算空间 —— 企业不仅在购买开发工具，还可以有效替代一部分开发人员的薪资支出。

//宛如 MoE 混合专家模式，还是需要分而治之，单个PR任务 vs 完整项目，代码片段 vs 解决方案，有代码经验 vs 无代码经验，工具 vs 人头。没有银弹！貌似具有强大分发渠道和群众基础的 Jetbrain 这次都被这些新 IDE 按地上摩擦？还是在憋大招？

赢得一个大企业客户的收益相当于成千上万的个人用户。而具备开发 DNA 的大型科技公司会更倾向于通过开源 LLM 和各种框架自建GenAI能力，而非向外采购。他们往往也拥有庞大的 B2C 基础和分销渠道，与之竞争难度大，机会少。非科技型大企业非常愿意为提升效率、创造更多价值的工具买单。 //中国SMB 又不付钱的(哈哈哈); 阿里云的通义灵码、百度的文心快码、字节跳动的豆包 MarsCode、腾讯云AI代码助手、智谱AI的CodeGeeX；蜂拥而至.....

ROI, Aha 终于到尴尬时刻， AI Coding 到底如何量化ROI?

Codeium 能受益于企业相信 AI coding 能提高生产力的普遍信念，但产品的 ROI 难以量化。为此，Codeium 开发了数据分析仪表盘，能够对照分团队的使用数据，跟踪 Codeium 对其软件开发的直接影响，可视化客户效率的提高程度，并收集最佳实践。

拾象，公众号：海外独角兽Codeium：企业原生 AI Coding 产品，能开创 Agentic IDE 新范式吗？

存量

当红辣子鸡(2025-02)有 Devin, Windsurf , Cursor, 1年前的Github Copilot, Continue.dev, 甚至可能大家都不太熟悉的 Tabnine 这三两年AI 编程 IDE 几乎把几十年的 IDEA 路都走绝了，不得不感叹， AI 世界一个月如人间三年；而Jetbrain 推出的 Assistant 好像完全缺席了本轮 IDE 的浪潮；而这些新的工具和方法的不停涌现也证明这波竞赛才刚刚开启，老树是否能发新芽，甚至绝地反击也不是没有可能。可能：

代码托管平台： gitlab, gitea
CI/CD平台： Jenkins, Sonar
项目管理：JIRA,ONS, CodeUp, PingCode, 禅道, 思码逸(能效)...
质量管理： Sonar, Smartbear
API 管理： Postman, ApiFox, ApiHug，Smartbear

只要在 SDLC 任何一个流程有参与，好像都有切入点，就等百花齐放百家争鸣了！

TOBE

智能的真正强大之处，不仅仅在于“思考”，而在于让思考能驱动行动。

有一个主线在我多年的探索中始终贯穿，那就是我所说的“以人为本的AI（Human-Centered AI）”，并且它包含三个核心价值：尊严（dignity）、能动性（agency）和社区（community）。

公众号：图灵人工智能巴黎AI峰会，斯坦福教授李飞飞演讲：当前才是"首个真正的AI时代"

首先是尊严。当面对越来越强大的技术时，我们人类常常会反思：到底是什么在定义“我们是谁”？如果把我们能做的所有事情都一一剥离，剩下的、那份能够自主决策并亲自行动的尊严感，依然是我们作为人的本质之一。

同上

一篇科普文章结尾恰如我的心情，愿大家都能穿越寒冬和黑暗，沐浴在即将到来的3月春风里！

终于，在漫长的冬眠之后，地松鼠会在初春（3月或4月初）走出洞穴。迎接它们的是拂过大地温柔的风，万物复苏的世界，还有充沛的食物和雨水。它不再饥饿，不会口渴。我们曾认为它看到的世界，或者它眼里的一生中，似乎只有美好的春节和夏季。但现在，我们已知晓它经历的秋季和冬季其实无比艰难和“黑暗”，是一种真正意义上的向死而生。

环球科学，公众号：环球科学为了睡觉长达半年不吃不喝，科学界耗时100多年才知道它们为何能活着