当前位置: 首页 > news >正文

「新」AI Coding(Agent) 的一点总结和看法

「新」AI Coding(Agent) 的一点总结和看法我们曾认为它看到的世界,或者它眼里的一生中,似乎只有美好的春节和夏季。但现在,我们已知晓它经历的秋季和冬季其实无比艰难和“黑暗”,是一种真正意义上的向死而生。https://mp.weixin.qq.com/s/XkWShtaKZIsUrlP2Rw6Jvg?token=857131514&lang=zh_CN

最近(2025-02) 在DeepSeek 的影响下,可以说AI/LLM 全民皆知,基于最近AI(DS)的爆炒,我们到底需要关注什么?也有讨论, 作为程序员当然首当其中,而作为深度参与其中的程序员,在各种 XXX 要被AI替代的宣传中带着极其复杂的情感,既有对新技术的好奇,又带着对其他人的负罪感, 最后好像甚至要把自己也削掉的莫名其妙感。这篇草稿总结改了删了很多次,这次勉强阶段性总结得差不多。

为什么要专门谈AI 对编程方面的辅助(Copilot, Agent etc), 在业务端Agent 之后是什么?MCP(Model Context Protocol) 是个什么东东?讨论很多了, 这次单纯讨论自己吃饭的手艺。

前提

  1. n0+年程序员老兵

  2. 深度AI应用产品开发者

  3. 深度AI使用者

  4. 一个AI Coding 工具设计开发者

  5. 近期(2025-02)AI Coding 大量深度的讨论(参考文末参考)

总结

自然语言交互门槛很低,对非编程人员十分友好!

AI Coding 擅长:

  • 一类是小产品,比如个人生活类的APP助手;

  • 一类是以内容为主的网站,其代码量和难度适中,AI能够自主实现;

  • 一类是办公产品,比如Excel表格编辑、数据汇总等。

对于一个公司的工程化项目,还是很难直接全盘交给AI,工程化项目要求的流程多,也需要多部门协作,而AI没办法看到全局。

现在的制衡是 Coding Agent 其实无法或者和人一样的访问权限,想象可以自由操作电脑上所有资源,一部分是因为权限问题,一方面现在系统和AI的世界桥梁没有打通。

大型工程仍需要人类程序员来掌握软件开发过程中的不确定性,比如架构设计、领域建模等,把已经确定性的内容拆解开来,比如模块开发、找安全漏洞、补充测试用例等,并交付给AI,让其根据人类的指令做这些确定性的工作。

主要摘录: 5万字解读 Coding Agent & OpenAI o3 [2025-02-10]

从 Coding Agent 到通用 Agent 的跃迁: 

  • 全栈进化: AI 代理正由单一代码编写转向需求分析、架构设计、测试与部署全流程。
  • 跨界交互: 未来 AI 将能像人一样操控图形界面,摆脱 API 限制。
  • 自我进化闭环:

     AI 有望自主优化代码、进行训练,终实现类似 AGI 的自我迭代。

Agent 未来从junior engineer晋升到senior engineer 需要提升的能力: 

  • 信息获取能力要与人类处于同等水平。我们人类能够访问到的所有信息渠道,这个Agent就必须能访问到;ComputerUse BrowserUse,MCP,Operator 解决这个, 如果大模型获取和真人一样权限其实都能干了!一旦技术统一,AI 就能大展拳脚
  • model本身的能力也很重要,特别是planning能力、从错误中恢复的能力
  • 要有积极主动的特质,需要在恰当的时机主动询问;确保未经授权操作绝不执行 安全
  • 如果一个工作能被总结成人类坐在电脑前通过和电脑交互能完成的,那基本上都能被Agent化。

  • Agent时代的新变现模式:不再是传统 SaaS 的卖工具,而是卖生产力;Software as Service, Service as Software

  • 创业并不是一定要训练自己的模型,而是要和模型形成一种更紧密的共生关系。核心竞争力在于如何把模型用好,以及对用户实际工作流程的深刻理解

  • 要保持乐观和敬畏:虽然我们现在用的是能获得的最好模型,但如果明天能拿到新版本,情况可能就完全不同了。

外围的工程化是否有风险?比如现在自带 Reason (DeepSeek&DeepResearch, Inference & Reasoning, MoE & Multimodal), 还有本身基础模型不停升级,最大化利用这个基础模型,甚至硬件带来的升级, 是否让很多外围工程优化作用削落,甚至成为掣肘?

依赖LLM自己的能力,通过历史的action的observation去生成新的action,决定下一步该做什么。这种设计的好处是能最大程度享受到model更新带来的improvement。相比之下,如果用prompting heavy API的方法,可能享受不到直接用LLM生成action带来的这些提升。这是我们早期的一些Agent design decision。

  • 对于很多垂直领域来说,agent 的能力会有较大的提升。可以先拿出一个基础模型,把一些规则做成规则模型(rule model),这个规则模型可能是一个纯粹的工程解决方案(pure engineering solution)。然后,可以用这个工程解决方案来让基础模型在上面进行迭代(iteration)和训练(training)。你可能会得到一个结果,这个结果已经出现一些超人类智能(super human intelligence)的能力。在这个基础上,再进行一些偏好调整(preference tuning),让它的回答更加符合人类的阅读习惯(human-readable),这样你可能就能得到一个在某个垂直领域上更强大的推理 agent;

  • 这可能会带来一个问题,你可能无法拥有在所有垂直领域都具有很强泛化能力的 agent。在一个特定领域训练出一个 agent 后,它只能在那个领域工作,而无法泛化到其他垂直领域。但这是一个可能的(落地)方向,因为 DeepSeek 本身带来的推理成本(inference cost)很低,可以选择一个模型,然后进行一系列强化训练,训练完成后,它只服务于某个垂直领域,不再关心其他垂直领域。对于垂类 AI 公司来说,这是一个可以接受的解决方案。

Codeium 强调自身产品的最大亮点在于强大的 context awareness,在所有任务中都会考虑临近文件,乃至整个存储库,并可以自定义固定上下文。其中最能显著展现上下文能力的用例是企业级代码库的语义搜索。

通用大模型(Code模型),是对公开code的提炼, 但是企业内部项目有自己复杂的上下文,是通用模型不知的,包括企业内部固有的架构和业务风格, 这些小到具体项目上下文,亦或公司代码标准,需要在coding agent 中关注,具体项目可以通过AST 语法分析,抓取热点,核心 flow, sequence 来缩小窗口大小, 也可以通过RAG 方式直接对准企业代码库或者规范; 这个里面可能从基础设施下手更容易,比如CI/CD, gitlab, gitea 类似git服务器。 

Windsurf 找到了 Agentic IDE 平衡的产品体验,将开发者置于 “copilot” 的位置,把适合自动化的多步任务交给 Cascade 系统接管。根据用户反馈,Cursor 产品体验很棒,但开发者仍主导了开发过程;而 Devin 在处理复杂问题时成功率不高、人类难以介入帮助 agent。这一设计不仅更能促进产品经理等强动机、弱开发能力的 prosumer 用户增长,还可能让 Codeium 得以打开企业客户的预算空间 —— 企业不仅在购买开发工具,还可以有效替代一部分开发人员的薪资支出。

//宛如 MoE 混合专家模式,还是需要分而治之,单个PR任务 vs 完整项目,代码片段 vs 解决方案, 有代码经验 vs 无代码经验, 工具 vs 人头。没有银弹!  貌似具有强大分发渠道和群众基础的 Jetbrain 这次都被这些新 IDE 按地上摩擦?还是在憋大招?

赢得一个大企业客户的收益相当于成千上万的个人用户。而具备开发 DNA 的大型科技公司会更倾向于通过开源 LLM 和各种框架自建GenAI能力,而非向外采购。他们往往也拥有庞大的 B2C 基础和分销渠道,与之竞争难度大,机会少。 非科技型大企业非常愿意为提升效率、创造更多价值的工具买单。 //中国SMB 又不付钱的(哈哈哈); 阿里云的通义灵码、百度的文心快码、字节跳动的豆包 MarsCode、腾讯云AI代码助手、智谱AI的CodeGeeX;蜂拥而至.....

ROI, Aha 终于到尴尬时刻, AI Coding 到底如何量化ROI? 

Codeium 能受益于企业相信 AI coding 能提高生产力的普遍信念,但产品的 ROI 难以量化。为此,Codeium 开发了数据分析仪表盘,能够对照分团队的使用数据,跟踪 Codeium 对其软件开发的直接影响,可视化客户效率的提高程度,并收集最佳实践。

拾象,公众号:海外独角兽Codeium:企业原生 AI Coding 产品,能开创 Agentic IDE 新范式吗?

图片

存量

当红辣子鸡(2025-02)有 Devin, Windsurf , Cursor, 1年前的Github Copilot, Continue.dev, 甚至可能大家都不太熟悉的 Tabnine 这三两年AI 编程 IDE 几乎把几十年的 IDEA 路都走绝了, 不得不感叹, AI 世界一个月如人间三年;而Jetbrain 推出的 Assistant 好像完全缺席了本轮 IDE 的浪潮;而这些新的工具和方法的不停涌现也证明这波竞赛才刚刚开启, 老树是否能发新芽,甚至绝地反击也不是没有可能。 可能:

  • 代码托管平台: gitlab, gitea

  • CI/CD平台: Jenkins, Sonar

  • 项目管理:JIRA,ONS, CodeUp, PingCode, 禅道, 思码逸(能效)...

  • 质量管理: Sonar, Smartbear

  • API 管理: Postman, ApiFox, ApiHug,Smartbear

只要在 SDLC 任何一个流程有参与,好像都有切入点,就等百花齐放百家争鸣了!

图片

TOBE

智能的真正强大之处,不仅仅在于“思考”,而在于让思考能驱动行动。

有一个主线在我多年的探索中始终贯穿,那就是我所说的“以人为本的AI(Human-Centered AI)”,并且它包含三个核心价值:尊严(dignity)、能动性(agency)和社区(community)。

公众号:图灵人工智能巴黎AI峰会,斯坦福教授李飞飞演讲:当前才是"首个真正的AI时代"

首先是尊严。当面对越来越强大的技术时,我们人类常常会反思:到底是什么在定义“我们是谁”?如果把我们能做的所有事情都一一剥离,剩下的、那份能够自主决策并亲自行动的尊严感,依然是我们作为人的本质之一。

同上

一篇科普文章结尾恰如我的心情,愿大家都能穿越寒冬和黑暗,沐浴在即将到来的3月春风里!

终于,在漫长的冬眠之后,地松鼠会在初春(3月或4月初)走出洞穴。迎接它们的是拂过大地温柔的风,万物复苏的世界,还有充沛的食物和雨水。它不再饥饿,不会口渴。我们曾认为它看到的世界,或者它眼里的一生中,似乎只有美好的春节和夏季。但现在,我们已知晓它经历的秋季和冬季其实无比艰难和“黑暗”,是一种真正意义上的向死而生。

环球科学,公众号:环球科学为了睡觉长达半年不吃不喝,科学界耗时100多年才知道它们为何能活着

Refer

  • 5万字解读 Coding Agent & OpenAI o3 [2025-02-10]

  • 为了睡觉长达半年不吃不喝,科学界耗时100多年才知道它们为何能活着

  • DeepSeek R1 发布前夜,3小时硅谷连线,深度解读 Coding Agent & OpenAI o3 [2025-02-11]

  • Codeium:企业原生 AI Coding 产品,能开创 Agentic IDE 新范式吗?[2025-02-12]

  • 巴黎AI峰会,斯坦福教授李飞飞演讲:当前才是"首个真正的AI时代"

  • https://36kr.com/p/3164293271366147 月入几万的程序员,要被AI取代了?

  • 中美 AI 创业者的闭门讨论:DeepSeek-R1 之后,AI 创业的变化和新趋势 [2025-02-11]

相关文章:

  • VisionTransformer(ViT)与CNN卷积神经网络的对比
  • 【Linux】多线程 -> 线程互斥与死锁
  • java.2.19
  • [STM32 - 野火] - - - 固件库学习笔记 - - - 十六.在SRAM中调试代码
  • GITHUB的若干操作
  • C# 背景 透明 抗锯齿 (效果完美)
  • 蓝桥杯备赛1-2合法日期
  • 深入浅出Spring Security:从入门到实战
  • 2.19学习记录
  • 1258:【例9.2】数字金字塔
  • LED灯闪烁实验:实验介绍
  • 基于Python的Django+Hadoop民族服饰数据分析系统+毕业论文+指导搭建视频
  • Git是什么
  • DHCP详解,网络安全零基础入门到精通实战教程!
  • 常用网络工具分析(ping,tcpdump等)
  • 算法的解题模式Ⅲ
  • Python数据结构进阶:栈与队列的实现与应用
  • ollama使用教程
  • 我的2025年计划
  • 前OpenAI CTO Mira Murati创办AI新公司
  • 国防部:赖清德歪曲二战历史,背叛民族令人不齿
  • 美国与卡塔尔签署超2435亿美元经济及军事合作协议
  • 7月纽约举办“上海日”,上海大剧院舞剧《白蛇》连演三场
  • 在古老的意大利科莫歌剧院,廖昌永唱响16首中国艺术歌曲
  • 加拿大新政府宣誓就职
  • 海运港口股掀涨停潮!回应关税下调利好,有货代称美线舱位爆了