当前位置：首页 > news >正文

Nof1：探索大语言模型作为量化交易者的极限（翻译）

news 2025/11/4 8:40:04

原文标题：Exploring the Limits of Large Language Models as Quant Traders
原文作者：Nof1（Alpha Arena 团队）
译者：[伊玛目的门徒]
发布时间：2025年10月27日

摘要

我们向六个领先的大语言模型（LLM）各提供了 1 万美元，让它们在真实市场中自主交易，仅使用数值型市场数据输入和统一的提示词/框架。初步结果表明，这些模型在风险偏好、仓位管理和持仓时间等行为上存在显著差异，并且对提示词的微小改动极为敏感。

引言

大语言模型（LLMs）已在国际象棋、围棋等领域的解题能力上达到技术巅峰，在 ICPC、IMO 等算法竞赛和数学证明中表现出竞争力。这些基准测试常被用来衡量模型是否准备好应对现实世界的问题，并颠覆各行各业中依赖知识和技能的工作。

然而，当前的静态基准测试存在明显不足：它们大多只考察模型在固定数据集上的模式匹配与推理能力，而忽略了长期决策、操作鲁棒性、适应能力以及在高风险领域中的实际表现。更重要的是，这些静态测试很快就会被纳入训练语料库，很多模型通过直接记忆就能在这些测试中取得高分，导致它们逐渐失去了评估价值。

前进的方向很明确，也很简单：在真实、动态、竞争性的环境中测试模型的决策能力。

在 Nof1，我们关注人工智能在现实世界中的行为表现，而金融市场正是我们探索这一问题的重要领域。通过 Alpha Arena 第一赛季，我们希望回答一个核心问题：

在几乎零指导的情况下，一个大语言模型能否作为零样本系统化交易模型来运行？

我们向当前最领先的几个大语言模型各提供了 1 万美元，让它们在 Hyperliquid 平台上进行完全无人干预的真实交易。每个模型只能处理数值型数据（这对 LLM 来说本就是一大挑战），并仅根据提供的数字信息进行系统化交易。第一赛季中，它们不会接收到新闻或主流市场叙事，而是必须从时间序列数据中自行推断出相关信息（只要这些信息被编码在数据中）。

这些模型交易的资产范围包括永续合约形式的加密衍生品。永续合约允许交易者以杠杆方式进行做多（赌价格上涨）或做空（赌价格下跌）。

每个模型的唯一目标：最大化盈亏（PnL）。同时，每个模型每次调用都会获得其夏普比率（单位风险下的超额收益），以帮助规范风险行为。

总体而言，Alpha Arena 的成功极其困难。我们并不期望任何模型能表现出色，早期的“成功”很可能只是运气使然。但第一赛季只是系列赛中的第一季，后续我们将引入更强的统计严谨性、更多控制变量以及更具体的挑战。

Alpha Arena 第一赛季的两个目标

1.
通过对比分析，揭示领先大语言模型中隐含的默认交易行为与偏见。模型之间的交易方式是否存在巨大差异？它们的行为是否随时间保持一致？它们在哪些地方容易犯错？
2.
推动 AI 研究文化从静态、考试式的基准测试，转向真实世界的基准测试。我们希望 Alpha Arena 能凸显在更具影响力、更贴近现实的环境中评估 AI 的重要性。我们认为，这是发现关键缺陷与洞见、推动前沿 AI 进步的最快路径。

为什么选择真实资金交易？

我们选择以真实资金进行实时交易，而不是模拟盘（paper trading）。虽然模拟盘仍是一个有用的基线，但它无法暴露执行层面的全部挑战、逆向选择问题以及真实市场中的责任压力。

透明度是方法的一部分：以加密货币为起点，可以提供可审计的交易记录和即时反馈。额外的关注度也有助于强化目标二，因为当人们发现这些模型的缺陷以及各赛季的不足时，会进一步推动反思与改进。

重要说明：这不是…

•
一场通过单次运行就宣布“最佳”交易模型的比赛。
•
对某个模型能力的最终评判。

我们非常清楚第一赛季存在的缺陷，包括但不限于：提示词偏差、样本量有限 / 统计严谨性不足、评估周期过短等。

尽管如此，在多次预发布测试运行中，我们确实观察到了模型之间存在不可忽视的行为差异，这些我们都将在下文详细记录。我们正在持续分析第一赛季的交易轨迹，同时开展一系列有针对性的后续实验，其中不少实验直接针对单次运行的局限性。

第一赛季的核心聚焦

我们重点关注模型的默认规则遵循能力与风险管理能力，具体包括：

•
它们是否能可靠地遵守简单的风控规则？
•
决策流程中的哪些环节可以被信任以自主运行？
•
它们在哪些地方会误读输入、过度交易、反复摇摆或违背既定计划？
•
每个模型的默认立场是什么：风险厌恶、风险偏好还是中性？这种立场随时间是否稳定？

目前我们已有一些初步答案，并提出了可验证的假设，以系统性地填补认知空白。

Alpha Arena 设计概览

我们的设计目标是：给智能体一个难但不过分的问题，避免它们因设置不当而失败。

我们进行了大量实验，确保模型拥有足够的信息做出合理决策，同时避免上下文过载。因此，我们为每个智能体提供了一组精简的实时市场特征，包括：当前及历史中间价与成交量、精选技术指标，以及覆盖短中长期的时间尺度辅助特征。

这些数据可以在 nof1.ai的“Model Chat”页面，点击任意模型的聊天消息查看。

参与模型

本季共有六个来自全球顶尖 AI 实验室的模型参与：

•
GPT-5
•
Gemini 2.5 Pro
•
Claude Sonnet 4.5
•
Grok 4
•
DeepSeek v3.1
•
Qwen3-Max

这些模型覆盖了中美两地、闭源与开源的前沿代表。除 Qwen3-Max 外，我们对所有模型启用了最高级别的推理配置。所有结果均为开箱即用，未进行任务特定的微调。

交易限制

•
动作空间限定为：买入（做多）、卖出（做空）、持仓、平仓。
•
交易标的限定为 Hyperliquid 上六种热门加密货币：BTC、ETH、SOL、BNB、DOGE 和 XRP。

选择加密资产有三个现实原因：

1.
7x24 小时交易，可以全天候观察模型决策；
2.
数据丰富且易于获取，支持分析与透明审计；Hyperliquid 的去中心化设计也让外界可以轻松验证每笔交易是否如实发生；
3.
全球性、低绑定性，Hyperliquid 与加密市场不依附于特定国家或公司。

模型进行的是中低频交易（MLFT），决策间隔为分钟到数小时级别，而非高频交易的微秒级。这种时间尺度更贴近我们关心的核心问题：在合理的时间与信息条件下，模型是否能做出良好决策？

在这一时间范围内，反馈回路更短，良好的推理往往体现在结果中，而过度交易与糟糕的风控则会体现在成本与回撤中。

最重要的是，这是真实交易，不是回放或沙盒练习，模型面临真实的撮合、手续费和试图击败它们的对手方。

公平性保障

为确保模型之间可比，所有智能体均采用相同的系统提示、用户提示模板、数据输入及默认采样配置。用户提示完全公开，系统提示未来可能开源。

构建智能体交互框架（Harness）

为避免智能体因信息过载而混乱，我们精心设计了上下文环境。我们避免了多智能体协作、工具调用和长对话历史等功能（这些可能在后续赛季引入）。

整个交互循环如下图所示（译者注：此处可插入流程图，原文中为 Alpha Arena Inference Loop Diagram）：

•
每次推理调用（约 2~3 分钟），智能体接收：
- •
  （a）简洁的指令集（系统提示）
- •
  （b）实时市场 + 账户状态（用户提示）
•
并返回动作，这些动作将送入 Hyperliquid 的交易执行管道。

指令经过多次迭代打磨，内容包括：预期费用、仓位规模、输出格式等。除了交易标的、方向（做多/做空）、数量、杠杆外，动作输出还包括：

•
简要的理由说明
•
置信度评分（0 到 1）
•
退出计划，包括预设止盈点、止损点与失效条件（即预先注册的、会使计划作废的特定信号）

这些字段在提示工程中被发现能提升性能。仓位规模这一关键交易设计要素，由智能体根据可用现金、杠杆及其内部风险偏好自行计算。

为什么要允许使用杠杆？

Hyperliquid 专为永续合约设计，其核心就是让杠杆交易变得容易。使用杠杆不仅提升了资本效率，也加速了结果呈现，从而加快反馈与学习循环。当然，杠杆也大幅提高了风险，能更好地测试模型的风控能力与纪律性。

初步发现

我们的初步运行表明：在相同框架和提示下，不同基础模型在风险偏好、计划能力、方向倾向和交易活跃度等方面存在显著差异。同时，模型对提示词的微小变化极为敏感，这强调了构建稳健框架与广泛提示迭代的重要性。

关键洞察与模式总结

虽然总体盈亏（PnL）和夏普比率很重要，但它们并不能说明全部问题。在数千次调用和多次预发布试运行中，我们观察到模型间既有趋同也有分歧的稳定模式，这些差异很可能反映了模型目标、对齐方式与采样行为的差异。

主要观察点包括：

•
多空倾向：部分模型长期呈现做多偏向，而 Grok 4、GPT-5 和 Gemini 2.5 Pro 更频繁做空；Claude Sonnet 4.5 几乎从不做空。
•
持仓时间：不同模型与运行间的持仓时长（从开仓到平仓）差异显著。预发布运行中，Grok 4 的持仓时间最长。
•
交易频率：各模型完成交易的数量差异极大。Gemini 2.5 Pro 最为活跃，Grok 4 通常最不活跃。
•
风险姿态（仓位规模）：相同提示下，模型选择的仓位大小差异明显。Qwen 3 始终选择最大仓位，常常是 GPT-5 和 Gemini 2.5 Pro 的数倍。
•
自报告置信度：模型需为每次行动指定一个 [0,1] 范围内的置信度分数，这方面各模型差异也很大。Qwen 3 常常自信度最高，GPT-5 最低，且该模式与实际交易表现脱钩。
•
退出计划严格度：在开放性指令下，模型设置的止损/止盈区间差异明显。Qwen 3 的止损/止盈距离（相对于开仓价）通常最窄，Grok 4 和 DeepSeek V3.1 则相对宽松。
•
同时持仓数量：有些模型倾向于同时持有全部六个标的，而 Claude Sonnet 4.5 和 Qwen 3 通常只维持 1~2 个活跃仓位。
•
退出条件：模型在设置退出计划的失效规则时，关注的特征各不相同。