【AI】专访 Braintrust CEO Ankur Goyal:为什么 AI 评测是产品 prototype 走向生产的唯一桥梁?
今天看了 Founder Mode 频道跟 Braintrust CEO Ankur Goyal 的播客视频,讨论了 AI prototype 投入生产的挑战,以及讨论了 AI 评测在这个过程中的重要性。
保留原视频观点,全是干货,文长,但值得深思。
可以带着这个问题阅读:“如果我使用你的应用并抱怨,你需要多少努力才能将这个抱怨转化为一个 eval?”
一、从重复的痛苦到 Braintrust 的诞生
Ankur 的数据库思维
在 Ankur Goyal 看来,无论他涉足什么领域——搜索、数据库、AI 还是 AI 可靠性——有一条贯穿始终的主线:“一切都是数据库问题”。
这个理念的核心在于:如果你能帮助某人创建一个真正优秀的系统,让他们能够捕获数据、处理数据并持续迭代,那么他们就能构建出真正优秀的产品。在他早期为 MemSQL(现 SingleStore)工作时,这个理念已经成型——帮助金融公司将交易决策时间从 30 小时缩短到 30 秒,帮助工业公司通过传感器数据预测设备故障。到了 AI 时代,这个逻辑依然成立:越快速、越有效地使用数据来提升产品质量,就能构建出越好的产品。
第一次遭遇:Impira 的文档提取困境
Braintrust 的故事始于一个反复出现的问题。在 Impira,他们构建基于 AI 的文档提取系统——在 ChatGPT 出现之前,这是一个极其困难的技术问题,他们需要处理多种文档类型。
BERT 发布后,团队意识到可以训练一个统一的 Transformer 模型来处理所有文档类型,而不需要为每种类型训练单独的模型。但他们很快发现了一个致命问题:每次改进一种文档类型的性能,就会破坏另一种文档类型的表现。比如改进了发票处理,银行对账单就会出问题。这让金融客户非常不满。
被逼无奈之下,团队开始认真对待评估(evals)。这个转变带来了戏剧性的效果:他们从为一个模型决策争论 3-4 个月,转变为能够快速发布。Ankur 亲眼见证了 evals 如何彻底改变了他们构建产品的方式。
但随之而来的是新的挑战:获取用于评估的数据变得非常困难。团队开始探索一个在当时看起来很奇怪的问题:如何将可观测性堆栈(observability stack)中的数据连接起来,转化为可以离线使用的评估数据?这需要编写大量脚本和构建工具,但当时 Ankur 并没有想太多。
第二次遭遇:Figma 的相同困境
Figma 收购了 Impira,Ankur 开始领导 Figma 的 AI 团队——正值 ChatGPT 刚刚发布的时刻。团队放下手中所有工作,开始思考如何用 LLM 改进 Figma 的产品。
不过在改进的过程中,他们遇到了完全相同的问题:团队不断构建新功能,然后另一个团队开始使用它并把它搞坏。最终,他们基本上又构建了一遍相同的工具。
经历两次后,Ankur 对这个问题感到彻底厌倦。
从个人困境到行业痛点
转折点来自一个敏锐的观察,有人对 Ankur 说:"你在两家公司都构建了相同的工具,但现在不只是你一个人在角落里做 AI 了。像 Instacart 这样的公司也在构建 AI 产品,也许其他人也有这个问题。所以他还是开始与一些公司交流,包括 Instacart、Notion、Zapier、Airtable、Stripe——这些后来成为 Braintrust 早期客户的公司。他们的反馈都是:“是的,我们正在摸索这个问题。”
这就是 Braintrust 诞生的时刻。
二、从 Prototype 到 Production 的两个关键要素
团队最容易低估的问题:从"我妈妈很喜欢"到打地鼠游戏
当 AI 产品从 prototype 走向 production 时,大多数团队会遭遇一个意想不到的困境。Ankur 用一个生动的例子来说明:
假设你在为 Instacart 构建一个帮助用户规划每周购物车的 AI 工具。用户发现了一个问题并向你反馈。你意识到:“哦,用户是对的,我需要修改提示词或更换模型。” 你进行了调整,改进了这个用户的场景,然后发布了新版本。
第二天,另一个用户抱怨说:“嘿,昨天我还能创建购物车,但现在它不会添加香蕉了。” 你会想:“天哪,我做了什么?”
这就是 “打地鼠游戏” 的本质:在 prototype 阶段,你会对少数几个示例保持极度专注。这是快速迭代的好方法。但当你真正发布产品并拥有大量用户时,你突然需要考虑随时间积累的集体智慧。改进了一个用户的场景,另一个用户的功能可能就坏了。
这就是为什么 Braintrust 早期有个规则:如果一个团队的产品发布还不到 3 个月,就不值得和他们谈。那些团队会说:“我们不需要 evals,我们的产品很棒,我妈妈在用,她很喜欢。” 但三个月后,他们会带着点宿醉的样子回来:“嘿,你们还在吗?”
提升速度而不失去信任:两个必须做好的事情
面对这个困境,Ankur 提出了两