当前位置: 首页 > news >正文

【AI】专访 Braintrust CEO Ankur Goyal:为什么 AI 评测是产品 prototype 走向生产的唯一桥梁?

今天看了 Founder Mode 频道跟 Braintrust CEO Ankur Goyal 的播客视频,讨论了 AI prototype 投入生产的挑战,以及讨论了 AI 评测在这个过程中的重要性。

保留原视频观点,全是干货,文长,但值得深思。

可以带着这个问题阅读:“如果我使用你的应用并抱怨,你需要多少努力才能将这个抱怨转化为一个 eval?”

一、从重复的痛苦到 Braintrust 的诞生

Ankur 的数据库思维

在 Ankur Goyal 看来,无论他涉足什么领域——搜索、数据库、AI 还是 AI 可靠性——有一条贯穿始终的主线:“一切都是数据库问题”

这个理念的核心在于:如果你能帮助某人创建一个真正优秀的系统,让他们能够捕获数据、处理数据并持续迭代,那么他们就能构建出真正优秀的产品。在他早期为 MemSQL(现 SingleStore)工作时,这个理念已经成型——帮助金融公司将交易决策时间从 30 小时缩短到 30 秒,帮助工业公司通过传感器数据预测设备故障。到了 AI 时代,这个逻辑依然成立:越快速、越有效地使用数据来提升产品质量,就能构建出越好的产品

第一次遭遇:Impira 的文档提取困境

Braintrust 的故事始于一个反复出现的问题。在 Impira,他们构建基于 AI 的文档提取系统——在 ChatGPT 出现之前,这是一个极其困难的技术问题,他们需要处理多种文档类型。

BERT 发布后,团队意识到可以训练一个统一的 Transformer 模型来处理所有文档类型,而不需要为每种类型训练单独的模型。但他们很快发现了一个致命问题:每次改进一种文档类型的性能,就会破坏另一种文档类型的表现。比如改进了发票处理,银行对账单就会出问题。这让金融客户非常不满。

被逼无奈之下,团队开始认真对待评估(evals)。这个转变带来了戏剧性的效果:他们从为一个模型决策争论 3-4 个月,转变为能够快速发布。Ankur 亲眼见证了 evals 如何彻底改变了他们构建产品的方式。

但随之而来的是新的挑战:获取用于评估的数据变得非常困难。团队开始探索一个在当时看起来很奇怪的问题:如何将可观测性堆栈(observability stack)中的数据连接起来,转化为可以离线使用的评估数据?这需要编写大量脚本和构建工具,但当时 Ankur 并没有想太多。

第二次遭遇:Figma 的相同困境

Figma 收购了 Impira,Ankur 开始领导 Figma 的 AI 团队——正值 ChatGPT 刚刚发布的时刻。团队放下手中所有工作,开始思考如何用 LLM 改进 Figma 的产品。

不过在改进的过程中,他们遇到了完全相同的问题:团队不断构建新功能,然后另一个团队开始使用它并把它搞坏。最终,他们基本上又构建了一遍相同的工具。

经历两次后,Ankur 对这个问题感到彻底厌倦。

从个人困境到行业痛点

转折点来自一个敏锐的观察,有人对 Ankur 说:"你在两家公司都构建了相同的工具,但现在不只是你一个人在角落里做 AI 了。像 Instacart 这样的公司也在构建 AI 产品,也许其他人也有这个问题。所以他还是开始与一些公司交流,包括 Instacart、Notion、Zapier、Airtable、Stripe——这些后来成为 Braintrust 早期客户的公司。他们的反馈都是:“是的,我们正在摸索这个问题。”

这就是 Braintrust 诞生的时刻。


二、从 Prototype 到 Production 的两个关键要素

团队最容易低估的问题:从"我妈妈很喜欢"到打地鼠游戏

当 AI 产品从 prototype 走向 production 时,大多数团队会遭遇一个意想不到的困境。Ankur 用一个生动的例子来说明:

假设你在为 Instacart 构建一个帮助用户规划每周购物车的 AI 工具。用户发现了一个问题并向你反馈。你意识到:“哦,用户是对的,我需要修改提示词或更换模型。” 你进行了调整,改进了这个用户的场景,然后发布了新版本。

第二天,另一个用户抱怨说:“嘿,昨天我还能创建购物车,但现在它不会添加香蕉了。” 你会想:“天哪,我做了什么?”

这就是 “打地鼠游戏” 的本质:在 prototype 阶段,你会对少数几个示例保持极度专注。这是快速迭代的好方法。但当你真正发布产品并拥有大量用户时,你突然需要考虑随时间积累的集体智慧。改进了一个用户的场景,另一个用户的功能可能就坏了。

这就是为什么 Braintrust 早期有个规则:如果一个团队的产品发布还不到 3 个月,就不值得和他们谈。那些团队会说:“我们不需要 evals,我们的产品很棒,我妈妈在用,她很喜欢。” 但三个月后,他们会带着点宿醉的样子回来:“嘿,你们还在吗?”

提升速度而不失去信任:两个必须做好的事情

面对这个困境,Ankur 提出了两

http://www.dtcms.com/a/453558.html

相关文章:

  • 大模型文生图和语音转换的调用以及向量和向量数据库RedisStack.
  • 做代练去什么网站安全合肥网站seo整站优化
  • 网站案例展示怎么做桂电做网站的毕设容易过嘛
  • QT-常用控件(一)
  • 网站开发选asp还是hph网站域名解析步骤
  • AI行业应用深度解析:从理论到实践的跨越
  • DeepMind 和罗光记团队 推出“帧链”概念:视频模型或将实现全面视觉理解
  • 外贸圈阿里巴巴微信seo什么意思
  • 【专业词汇】元认知
  • 有什么网站开发软件网页棋牌开发
  • Flutter与Dart结合AI开发实战
  • Easyx使用(数据可视化)
  • 基于单片机的大货车防偷油系统设计
  • JavaScript:神奇的ES6之旅
  • 延吉网站开发公司特别好的企业网站程序
  • Avalonia:现代跨平台UI开发的卓越之选
  • gta5网站正在建设阿里云网站建设与发布题库
  • 网页制作的网站淘宝页面设计的网站
  • 【STM32项目开源】STM32单片机人体健康监测系统
  • 车载诊断架构 --- 车载ECU故障类型详解(上)
  • 房产中介做网站wordpress 下载插件xydown
  • 廊坊自助建站设计自己开发的软件如何赚钱
  • 【Redis学习】Redis常用数据类型的万字详解
  • 探讨生成式AI在代码评审与重构中的决策权重分配
  • 【LeetCode380题】和【LeetCode238题】题解
  • The “Launch”_2 - 价值交付与灰度发布的系统实现方案
  • 做的网站怎么打开是白板静态网站 价格
  • JavaScript Boolean(布尔)
  • CentOS 7.6 系统源码部署 HivisionIDPhotos
  • 电子电气架构 --- 汽车座舱行业发展现状分析