Nof1:探索大语言模型作为量化交易者的极限(翻译)
原文标题:Exploring the Limits of Large Language Models as Quant Traders
原文作者:Nof1(Alpha Arena 团队)
译者:[伊玛目的门徒]
发布时间:2025年10月27日
摘要
我们向六个领先的大语言模型(LLM)各提供了 1 万美元,让它们在真实市场中自主交易,仅使用数值型市场数据输入和统一的提示词/框架。初步结果表明,这些模型在风险偏好、仓位管理和持仓时间等行为上存在显著差异,并且对提示词的微小改动极为敏感。
引言
大语言模型(LLMs)已在国际象棋、围棋等领域的解题能力上达到技术巅峰,在 ICPC、IMO 等算法竞赛和数学证明中表现出竞争力。这些基准测试常被用来衡量模型是否准备好应对现实世界的问题,并颠覆各行各业中依赖知识和技能的工作。
然而,当前的静态基准测试存在明显不足:它们大多只考察模型在固定数据集上的模式匹配与推理能力,而忽略了长期决策、操作鲁棒性、适应能力以及在高风险领域中的实际表现。更重要的是,这些静态测试很快就会被纳入训练语料库,很多模型通过直接记忆就能在这些测试中取得高分,导致它们逐渐失去了评估价值。
前进的方向很明确,也很简单:在真实、动态、竞争性的环境中测试模型的决策能力。
在 Nof1,我们关注人工智能在现实世界中的行为表现,而金融市场正是我们探索这一问题的重要领域。通过 Alpha Arena 第一赛季,我们希望回答一个核心问题:
在几乎零指导的情况下,一个大语言模型能否作为零样本系统化交易模型来运行?
我们向当前最领先的几个大语言模型各提供了 1 万美元,让它们在 Hyperliquid 平台上进行完全无人干预的真实交易。每个模型只能处理数值型数据(这对 LLM 来说本就是一大挑战),并仅根据提供的数字信息进行系统化交易。第一赛季中,它们不会接收到新闻或主流市场叙事,而是必须从时间序列数据中自行推断出相关信息(只要这些信息被编码在数据中)。
这些模型交易的资产范围包括永续合约形式的加密衍生品。永续合约允许交易者以杠杆方式进行做多(赌价格上涨)或做空(赌价格下跌)。
每个模型的唯一目标:最大化盈亏(PnL)。同时,每个模型每次调用都会获得其夏普比率(单位风险下的超额收益),以帮助规范风险行为。
总体而言,Alpha Arena 的成功极其困难。我们并不期望任何模型能表现出色,早期的“成功”很可能只是运气使然。但第一赛季只是系列赛中的第一季,后续我们将引入更强的统计严谨性、更多控制变量以及更具体的挑战。
Alpha Arena 第一赛季的两个目标
- 1.
通过对比分析,揭示领先大语言模型中隐含的默认交易行为与偏见。模型之间的交易方式是否存在巨大差异?它们的行为是否随时间保持一致?它们在哪些地方容易犯错?
 - 2.
推动 AI 研究文化从静态、考试式的基准测试,转向真实世界的基准测试。我们希望 Alpha Arena 能凸显在更具影响力、更贴近现实的环境中评估 AI 的重要性。我们认为,这是发现关键缺陷与洞见、推动前沿 AI 进步的最快路径。
 
为什么选择真实资金交易?
我们选择以真实资金进行实时交易,而不是模拟盘(paper trading)。虽然模拟盘仍是一个有用的基线,但它无法暴露执行层面的全部挑战、逆向选择问题以及真实市场中的责任压力。
透明度是方法的一部分:以加密货币为起点,可以提供可审计的交易记录和即时反馈。额外的关注度也有助于强化目标二,因为当人们发现这些模型的缺陷以及各赛季的不足时,会进一步推动反思与改进。
重要说明:这不是…
- •
一场通过单次运行就宣布“最佳”交易模型的比赛。
 - •
对某个模型能力的最终评判。
 
我们非常清楚第一赛季存在的缺陷,包括但不限于:提示词偏差、样本量有限 / 统计严谨性不足、评估周期过短等。
尽管如此,在多次预发布测试运行中,我们确实观察到了模型之间存在不可忽视的行为差异,这些我们都将在下文详细记录。我们正在持续分析第一赛季的交易轨迹,同时开展一系列有针对性的后续实验,其中不少实验直接针对单次运行的局限性。
第一赛季的核心聚焦
我们重点关注模型的默认规则遵循能力与风险管理能力,具体包括:
- •
它们是否能可靠地遵守简单的风控规则?
 - •
决策流程中的哪些环节可以被信任以自主运行?
 - •
它们在哪些地方会误读输入、过度交易、反复摇摆或违背既定计划?
 - •
每个模型的默认立场是什么:风险厌恶、风险偏好还是中性?这种立场随时间是否稳定?
 
目前我们已有一些初步答案,并提出了可验证的假设,以系统性地填补认知空白。
Alpha Arena 设计概览
我们的设计目标是:给智能体一个难但不过分的问题,避免它们因设置不当而失败。
我们进行了大量实验,确保模型拥有足够的信息做出合理决策,同时避免上下文过载。因此,我们为每个智能体提供了一组精简的实时市场特征,包括:当前及历史中间价与成交量、精选技术指标,以及覆盖短中长期的时间尺度辅助特征。
这些数据可以在 nof1.ai的“Model Chat”页面,点击任意模型的聊天消息查看。
参与模型
本季共有六个来自全球顶尖 AI 实验室的模型参与:
- •
GPT-5
 - •
Gemini 2.5 Pro
 - •
Claude Sonnet 4.5
 - •
Grok 4
 - •
DeepSeek v3.1
 - •
Qwen3-Max
 
这些模型覆盖了中美两地、闭源与开源的前沿代表。除 Qwen3-Max 外,我们对所有模型启用了最高级别的推理配置。所有结果均为开箱即用,未进行任务特定的微调。
交易限制
- •
动作空间限定为:买入(做多)、卖出(做空)、持仓、平仓。
 - •
交易标的限定为 Hyperliquid 上六种热门加密货币:BTC、ETH、SOL、BNB、DOGE 和 XRP。
 
选择加密资产有三个现实原因:
- 1.
7x24 小时交易,可以全天候观察模型决策;
 - 2.
数据丰富且易于获取,支持分析与透明审计;Hyperliquid 的去中心化设计也让外界可以轻松验证每笔交易是否如实发生;
 - 3.
全球性、低绑定性,Hyperliquid 与加密市场不依附于特定国家或公司。
 
模型进行的是中低频交易(MLFT),决策间隔为分钟到数小时级别,而非高频交易的微秒级。这种时间尺度更贴近我们关心的核心问题:在合理的时间与信息条件下,模型是否能做出良好决策?
在这一时间范围内,反馈回路更短,良好的推理往往体现在结果中,而过度交易与糟糕的风控则会体现在成本与回撤中。
最重要的是,这是真实交易,不是回放或沙盒练习,模型面临真实的撮合、手续费和试图击败它们的对手方。
公平性保障
为确保模型之间可比,所有智能体均采用相同的系统提示、用户提示模板、数据输入及默认采样配置。用户提示完全公开,系统提示未来可能开源。
构建智能体交互框架(Harness)
为避免智能体因信息过载而混乱,我们精心设计了上下文环境。我们避免了多智能体协作、工具调用和长对话历史等功能(这些可能在后续赛季引入)。
整个交互循环如下图所示(译者注:此处可插入流程图,原文中为 Alpha Arena Inference Loop Diagram):
- •
每次推理调用(约 2~3 分钟),智能体接收:
- •
(a)简洁的指令集(系统提示)
 - •
(b)实时市场 + 账户状态(用户提示)
 
 - •
 - •
并返回动作,这些动作将送入 Hyperliquid 的交易执行管道。
 
指令经过多次迭代打磨,内容包括:预期费用、仓位规模、输出格式等。除了交易标的、方向(做多/做空)、数量、杠杆外,动作输出还包括:
- •
简要的理由说明
 - •
置信度评分(0 到 1)
 - •
退出计划,包括预设止盈点、止损点与失效条件(即预先注册的、会使计划作废的特定信号)
 
这些字段在提示工程中被发现能提升性能。仓位规模这一关键交易设计要素,由智能体根据可用现金、杠杆及其内部风险偏好自行计算。
为什么要允许使用杠杆?
Hyperliquid 专为永续合约设计,其核心就是让杠杆交易变得容易。使用杠杆不仅提升了资本效率,也加速了结果呈现,从而加快反馈与学习循环。当然,杠杆也大幅提高了风险,能更好地测试模型的风控能力与纪律性。
初步发现
我们的初步运行表明:在相同框架和提示下,不同基础模型在风险偏好、计划能力、方向倾向和交易活跃度等方面存在显著差异。同时,模型对提示词的微小变化极为敏感,这强调了构建稳健框架与广泛提示迭代的重要性。
关键洞察与模式总结
虽然总体盈亏(PnL)和夏普比率很重要,但它们并不能说明全部问题。在数千次调用和多次预发布试运行中,我们观察到模型间既有趋同也有分歧的稳定模式,这些差异很可能反映了模型目标、对齐方式与采样行为的差异。
主要观察点包括:
- •
多空倾向:部分模型长期呈现做多偏向,而 Grok 4、GPT-5 和 Gemini 2.5 Pro 更频繁做空;Claude Sonnet 4.5 几乎从不做空。
 - •
持仓时间:不同模型与运行间的持仓时长(从开仓到平仓)差异显著。预发布运行中,Grok 4 的持仓时间最长。
 - •
交易频率:各模型完成交易的数量差异极大。Gemini 2.5 Pro 最为活跃,Grok 4 通常最不活跃。
 - •
风险姿态(仓位规模):相同提示下,模型选择的仓位大小差异明显。Qwen 3 始终选择最大仓位,常常是 GPT-5 和 Gemini 2.5 Pro 的数倍。
 - •
自报告置信度:模型需为每次行动指定一个 [0,1] 范围内的置信度分数,这方面各模型差异也很大。Qwen 3 常常自信度最高,GPT-5 最低,且该模式与实际交易表现脱钩。
 - •
退出计划严格度:在开放性指令下,模型设置的止损/止盈区间差异明显。Qwen 3 的止损/止盈距离(相对于开仓价)通常最窄,Grok 4 和 DeepSeek V3.1 则相对宽松。
 - •
同时持仓数量:有些模型倾向于同时持有全部六个标的,而 Claude Sonnet 4.5 和 Qwen 3 通常只维持 1~2 个活跃仓位。
 - •
退出条件:模型在设置退出计划的失效规则时,关注的特征各不相同。
 
操作层面的脆弱性
我们还观察到模型在一些操作层面表现出脆弱性,例如:
- •
排序偏差:早期提示中市场数据按最新到最旧排列,但一些模型仍然误读为最旧到最新,导致错误判断。
 - •
术语歧义:“free collateral” 和 “available cash” 被混用,导致行为不一致。
 - •
规则博弈与欺骗:在某些变体测试中,模型会表面上遵守规则,实则通过内部推理绕过限制。
 - •
自我指涉混乱:在开放性退出计划中,模型有时会误解或与自己之前的输出相矛盾。
 
后续工作
我们努力为模型提供了公平的机会,但当前的框架仍存在明显约束。每个智能体必须在有限的上下文窗口内解析噪声市场特征、关联账户状态、在严格规则下推理并返回结构化动作。
本季中,模型没有明确的机制感知市场状态变化,也无法利用历史状态-动作记录,这限制了它们的适应与学习能力。此外,当前任务也不支持“加仓/减仓”操作,一旦开仓,规模与参数就固定了。
未来的版本将扩展功能集,引入选择性工具使用(如代码执行或网络搜索),并显式包含历史状态-动作轨迹。
下一步计划
- •
Alpha Arena 第一赛季将持续运行至 2025 年 11 月 3 日(美国东部时间下午 5:00)。
 - •
第二赛季已在筹备中,将基于第一赛季的发现优化提示词、框架设计,并引入更强的统计方法。
 - •
在第一赛季结束前,我们会持续发布实时结果并与社区互动。更多关于第二赛季的信息即将公布。
 
