当前位置：首页 > news >正文

LLM在应用计量经济学和因果推断中作用的思考

news 2025/9/22 10:29:45

这篇文章[If Applied Econometrics Were Easy, LLMs Could Do It!]探讨了人工智能（AI）和大型语言模型（LLM）在应用计量经济学和因果推断中的作用。作者认为，虽然LLM在信息提取和处理方面表现出色，但它们无法进行真正的思考和因果分析。文章指出，AI不能简单地取代人类的思维过程，因为因果推断不仅仅依赖于数据，还需要对决策的深刻理解和思考。

作者引用了多个专家的观点，强调了因果推断的复杂性及其在商业决策中的重要性。尽管LLM可以帮助进行数据分析和生成报告，但它们缺乏理解决策背景和社会规范的能力。最终，作者呼吁人们要重视思考的重要性，而不是盲目依赖技术工具。

文章目录

1 摘要
2 AI 与因果思维
3 ChatGPT 作为研究助理
4 “粗想”与“精思”
5 结论：思考是我们的责任

1 摘要

人工智能能做应用计量经济学和因果推断吗？大型语言模型 (LLM) 能否捕捉到决定应用工作中许多决策的细微差别和社交规范，并在响应提示时反映出来？LLM 带来了令人难以置信的能力、效率和创造价值的机会。但当这些工具被用作“邓宁-克鲁格即服务”（DKaaS）时，存在风险，即批判性思维和实际学习始于并止于提示工程和响应。我们必须非常谨慎地认识到，正如菲利普·泰特洛克在其著作《超级预测者》中所描述的，模仿和反映意义与创造意义之间存在差异。要认识到，重要的不仅仅是你所知道的，更是你如何知道你所知道的。这种_二手_倾向，即相信我们可以或应该将我们的思维外包，甚至牺牲给人工智能，以换取关于价值的误导性甚至虚假承诺，在哲学和认识论上都令人不安。

2 AI 与因果思维

这是一篇从因果视角来看的好文章：企业决策需要的不只是聊天机器人。

“虽然 LLM 擅长从语料库中学习和提取信息，但它们对人类非常擅长的事情却视而不见——那就是衡量决策的影响。”

在最近的一次演讲中，Cassie Kozrykov 很好地指出：“AI 不会自动思考！”

借用 Judea Pearl 的观点，理解什么会产生影响（因果关系）需要的不仅仅是数据，还需要数据中最初不存在的东西。围绕 AI 的许多炒作都基于工具和技术的思维模式。正如杰克·斯派洛船长在《加勒比海盗》中谈论船只时所说，船不仅仅是帆和舵，这些是船需要的东西。船真正的意义是自由。因果推断不仅仅是方法和定理，这些是因果推断需要的东西，但它真正的意义是一种思维方式。在商业中，需要的是思维的统一。例如，Ivor Bojinov 在他的文章《因果关系的重要性》中描述了领英的因果数据分析审查委员会。这是利用实验和因果推断的学习型组织中常见的最佳实践。

如果你参加过很多次这样的审查，你就会开始体会到理解业务问题、构建假设并将其转化为分析解决方案所需的细致思考……然后解释结果并就下一步采取什么行动提出建议。同样，典型的机器学习工作流程需要前期的思考和问题构建。但与训练机器学习模型不同，正如 Scott Lundberg 所描述的（参见我的领英帖子：超越 SHAP 值和水晶球），理解_什么会产生影响_不仅仅是让算法找出最佳预测因子然后就完事了，还有一条充满分岔路径的花园需要导航，每一个转折都需要更多的思考，并且“专家”之间对于走向哪个方向存在巨大分歧。

正如我在过去关于分析中分岔路径的帖子中讨论的：

“即使我只是为了获得给定回归系数的单个估计值，多重检验和研究人员的自由度也可能成为一个非常相关的问题……这揭示了许多实证工作的脆弱性，审慎要求我们以批判的眼光看待。”

当然，你可能可以将 LLM 与统计软件和数据库连接起来，并要求它运行回归，但回到杰克·斯派洛船长的船只类比，回归不仅仅是将一条线拟合到数据并检验异方差性和多重共线性（希望如果 LLM 训练计量经济学教科书，它们不会根据多重共线性所占材料的多少来衡量信息的价值！！！）以及一长串的_教科书假设_。AI 甚至可能用语言描述结果的机械解释。所有这些都非常酷，这样的东西可以节省大量时间并增强我们的工作流程（这很有价值），但我们也必须小心这种工具思维模式再次悄悄地回到我们身边。AI 可能能够做的所有这些事情都只是回归所需的东西，但要达到我们需要的目的，要理解_为什么_，我们需要远远超出 AI 目前所能提供的。我们需要_思考_。因此，即使对于一个基本的回归，根据我们的目标，所需的思考目前以及可能永远超出 AI 的能力范围。

当我们思考在应用工作中遇到的这些分岔路径时，每条路径都可能以不同的影响度量结束，并伴随着许多需要考虑的注意事项和权衡。很少有标准问题有标准解决方案。所采取的行动需要有意识的决策和不同专家判断之间的思想碰撞（即使不是明确的，也是隐含的），这些判断考虑了从理论上正确到实际可行之间的所有权衡。

彼得·肯尼迪在他的著作《计量经济学指南》中指出：“应用计量经济学家不断面临尴尬的妥协”，并讲述了一个关于应用工作的故事：

“计量经济学理论就像一道精致平衡的法国菜谱，精确地说明了酱汁要搅拌多少圈，要加多少克香料，以及在恰好 474 度温度下烘烤多少毫秒。但当统计厨师转向原材料时，他发现仙人掌果心不可得，于是他用甜瓜块代替；菜谱要求细面条，他却用了碎麦片；他用绿色染料代替咖喱，用乒乓球代替龟蛋，而对于 1883 年份的 Chalifougnac 葡萄酒，他用了一罐松节油。”

当 AI 驱动的因果推断必须在 $1883$ 年份的 Chalifougnac 葡萄酒和松节油之间做出尴尬的妥协时，它会做出什么选择？它又将如何解释它所做的选择以及其中的_思考_？这个选择与另外四位可能做出不同选择的应用计量经济学家的意见相比如何？

正如 Richard McElreath 在他的著作《统计再思考》中讨论的：

“统计学家通常不会完全同意如何分析除了最简单的问题之外的任何问题。统计推断使用数学这一事实并不意味着只有一种合理或有用的分析方法。工程师也使用数学，但建造一座桥梁有多种方法。”

这就是为什么在应用经济学中，我们认为的许多“最佳实践”既是社会规范和实践的结果，也是教科书理论的结果。这些规范通常是随着时间的推移非正式地建立和演变的，有时会适应特定业务或决策环境，或研究领域（这解释了经济学家和流行病学家之间的语言障碍，以及为什么不同的语言可以用来描述同一事物，以及同一语言对不同的从业者可能意味着不同的事物）。作为人类行动而非人类设计的产物，许多最佳实践可能很少被正式编纂或发表，以至于无法训练聊天机器人阅读和理解。算法能否理解并传达这种细微差别？我尝试过询问 chatGPT 关于线性概率模型 (LPM) 的问题，虽然我对一些细节印象深刻，但根据我得到的答案，我目前并不完全信服。虽然它在阐明 LPM 与逻辑回归或其他模型的优缺点方面做得很好，但我认为它会给普通读者留下这样的印象：在大多数情况下，他们应该警惕依赖 LPM 来估计治疗效果。因此，他们错过了实际的好处（使用 LPM 带来的“优点”），同时避免了 Angrist 和 Pischke 可能会说的“无害”的“缺点”。我担心更具挑战性的计量经济学问题，这些问题具有更多的细微差别，更多地依赖于社会规范、实践和_思考_，而 LLM 可能无法了解这些。

3 ChatGPT 作为研究助理

除了实际进行应用计量经济学和因果推断之外，我对 LLM 和 AI 作为研究和学习工具的使用还有额外的担忧。起初，如果不必阅读五篇期刊文章，而只需让像 chatGPT 这样的工具为你完成繁重的工作，并在更短的时间内总结它们，这似乎真的很棒！我同意这种总结性知识很有用，但可能不像许多用户想象的那样。

我一直在思考，当你亲手阅读一篇论文或一本书，并努力理解其中的思想，从假设到结论的路径，以及引用的参考文献如何让你追溯作者的步骤，以理解为什么，无论是缓慢地将你的先验知识推向新的方向，还是强化你现有的观点，并将这些思想与你自己的思想进行综合时，你能获得多少收获。然后将这种综合总结、应用并传达给他人。

ChatGPT 可能会给人留下这样的印象：它在比你完成同样工作所需的时间短得多的时间内完成了这些（字面上是几秒钟而不是几小时或几天）。然而，即使它给出了与你一字不差的总结，在所创造的价值方面，其差异也可能像白天和黑夜一样巨大。当你经历这种整合复杂_思考_的过程时，所发生的学习与仅仅阅读 chatGPT 呈上的总结之间存在巨大差异。我怀疑我所描述的能否在不损失重要东西的情况下外包给 AI。我还认为，当这些工具被用作“邓宁-克鲁格即服务”（DKaaS）时，存在真正的风险和成本，即批判性思维和实际学习始于并止于提示工程和响应。

当涉及到这些知识和思考的实际应用以及解决新问题时，重要的不仅仅是你所知道的，更是你如何知道你所知道的。如果你只有一份总结，你是否知道如何在理论上正确和实际可行之间进行权衡，以便在分析中选择最佳分岔路径？考虑到应用工作中社会规范和实践的重要性，以及如果上面关于 LPM 的讨论有任何指示，我不确定。仅仅依靠总结，你是否能够快速吸收该领域的新发展……或者你是否必须回到 chatGPT。每次更新会丢失多少知识和重要细微差别？错过了什么？思考！

正如 Cassie 在她的演讲中所说，思考是关于：

“知道什么值得说……知道什么值得做，我们在产生想法、解决问题、发挥创造力时都在思考。”

人工智能无法做到这些事情，而相信甚至试图或假装我们可以从人工智能工具那里_二手_获得这些东西，最终将侵蚀对长期生产力和增长至关重要的人类真实技能和能力。如果我们不接受这一点，我们将听到巨大的吸力声，那是我们试图自动化无法自动化的东西，从而在短期内从人工智能中获得的投资回报率。那是工具和技术思维模式的虚假承诺。

令我担忧的是，这种基于工具和技术的_数据科学炼金术_思维模式，曾让许多经理相信数据科学家可以简单地用深度学习将数据点石成金的“万金油”，现在又会相信 LLM 能够将数据点石成金，而且成本更低，从而让思考者卷铺盖走人！

同样，Cassie 说：“这可能是最大的问题，管理层还没有学会如何管理思考……而不是你可以轻松衡量的事情……思考是你无法强迫的，你只能阻碍它。”

她在她的领英帖子中对此进行了更详细的阐述：“对生产力的误导性看法可能意味着工人的失业，而没有这些工人，组织将无法长期繁荣——这对每个人来说都是一个痛苦的错误。”

4 “粗想”与“精思”

我确实说过这种总结信息可能很有用。我同意 AI 和 LLM 有用的那些事情，正是 Cassie 在她的演讲中提到的“粗想”（thunking）。那些消耗我们时间、资源但不需要思考的事情。在做足功课之后，从 LLM 获得的总结信息可以帮助强化你的思考和学习，并节省手动搜索或查找许多你曾经知道但已忘记的事情的时间。如果有一个领域你很久没有思考过，它可能是帮助你快速恢复的好方法。在尝试学习新事物时，它可以用来加速你发现过程的某些方面，或使其更高效，甚至帮助挑战或验证你的思考（虚拟地来回碰撞想法）。但要有用，这仍然需要一些背景知识，绝不能替代亲手阅读论文并进行所需的细致和批判性思考。

我尚未提及的应用计量经济学的一个领域是实施解决方案通常不那么光鲜的工作。除了翻译解决方案和导航分岔路径所涉及的所有思考之外，还有大量时间用于访问和转换数据以及实施涉及编码的估计（请注意，即使在所有这些“粗想”工作中，仍然涉及思考——有时我们在尝试处理数据时对我们的业务和问题了解最多——所以这也是我们需要小心自动化的地方）。许多数据科学人员也正在使用这些工具来加速他们的一些编程任务。我是一个习惯性使用 stack-exchange 和 git hub 的人，并且不断重复使用我自己的代码或他人的代码。但有时我会在寻找我需要的东西上花费大量时间。这就是利用新的 AI 工具进行“粗想”的意义所在！

5 结论：思考是我们的责任

我观察到关于像 ChatGPT 这样的工具的两种极端观点。一种是 LLM 拥有尤达大师的知识和智慧，并将解决我们所有的问题。另一种极端是，因为 LLM 不具备尤达大师的知识和智慧，所以它们在很大程度上是无关紧要的。显然，存在中间地带，我在这篇文章中试图找到它。我认为 Cassie 已经找到了：

“AI 不会自动思考。它不会！关于这一点有很多奇怪的传闻，对我这个在这个领域工作了二十年的人来说听起来很奇怪。”

我感受到了同样的传闻，这应该让我们都感到有些不安。她接着说：

“当你不是那个做决定的人，而看起来是机器在做决定时，实际上有人在为你做决定……我认为我们一直都很自满，我们允许我们的技术变得匿名……我们将如何追究它们的责任……为了智慧……思考是我们的责任。”

思考是一种道德责任。外包我们的思考，并自欺欺人地认为我们可以从 AI 工具撰写的总结中_二手_获得知识、智慧和判断，并相信这与我们作为有思想的人所能产生的东西是相同的，并提供相同的价值，这是一种危险的幻觉，因为最终，思考是人类和公民社会最终繁荣和生存的手段。2020 年，前总统巴拉克·奥巴马强调了民主中思考的重要性：

“如果我们没有能力区分真假，那么根据定义，思想市场就无法运作。根据定义，我们的民主就无法运作。我们正在进入一场认识论危机。”

错误的工具和技术思维模式，以及对技术的谄媚，以及一种_二手_倾向，即相信我们可以或应该将我们的思维外包，甚至牺牲给人工智能，以换取关于价值的误导性甚至虚假承诺，在哲学和认识论上都令人不安。

LLM 带来了令人难以置信的能力、效率和创造价值的机会。但我们必须非常谨慎地认识到，正如菲利普·泰特洛克在他的著作《超级预测者》中所描述的，模仿和反映意义与创造意义之间存在差异。要认识到，重要的不仅仅是你所知道的，更是你如何知道你所知道的。借用《基本无害的计量经济学》一书的结尾语：如果应用计量经济学很简单，LLM 就能搞定。

查看全文

http://www.dtcms.com/a/394277.html