当前位置: 首页 > news >正文

Nof1:探索大语言模型作为量化交易者的极限(翻译)

原文标题:Exploring the Limits of Large Language Models as Quant Traders

原文作者:Nof1(Alpha Arena 团队)

译者:[伊玛目的门徒]

发布时间:2025年10月27日


摘要

我们向六个领先的大语言模型(LLM)各提供了 1 万美元,让它们在真实市场中自主交易,仅使用数值型市场数据输入和统一的提示词/框架。初步结果表明,这些模型在风险偏好、仓位管理和持仓时间等行为上存在显著差异,并且对提示词的微小改动极为敏感。


引言

大语言模型(LLMs)已在国际象棋、围棋等领域的解题能力上达到技术巅峰,在 ICPC、IMO 等算法竞赛和数学证明中表现出竞争力。这些基准测试常被用来衡量模型是否准备好应对现实世界的问题,并颠覆各行各业中依赖知识和技能的工作。

然而,当前的静态基准测试存在明显不足:它们大多只考察模型在固定数据集上的模式匹配与推理能力,而忽略了长期决策、操作鲁棒性、适应能力以及在高风险领域中的实际表现。更重要的是,这些静态测试很快就会被纳入训练语料库,很多模型通过直接记忆就能在这些测试中取得高分,导致它们逐渐失去了评估价值。

前进的方向很明确,也很简单:在真实、动态、竞争性的环境中测试模型的决策能力。

在 Nof1,我们关注人工智能在现实世界中的行为表现,而金融市场正是我们探索这一问题的重要领域。通过 Alpha Arena 第一赛季,我们希望回答一个核心问题:

在几乎零指导的情况下,一个大语言模型能否作为零样本系统化交易模型来运行?

我们向当前最领先的几个大语言模型各提供了 1 万美元,让它们在 Hyperliquid 平台上进行完全无人干预的真实交易。每个模型只能处理数值型数据(这对 LLM 来说本就是一大挑战),并仅根据提供的数字信息进行系统化交易。第一赛季中,它们不会接收到新闻或主流市场叙事,而是必须从时间序列数据中自行推断出相关信息(只要这些信息被编码在数据中)。

这些模型交易的资产范围包括永续合约形式的加密衍生品。永续合约允许交易者以杠杆方式进行做多(赌价格上涨)或做空(赌价格下跌)。

每个模型的唯一目标:最大化盈亏(PnL)。同时,每个模型每次调用都会获得其夏普比率(单位风险下的超额收益),以帮助规范风险行为。

总体而言,Alpha Arena 的成功极其困难。我们并不期望任何模型能表现出色,早期的“成功”很可能只是运气使然。但第一赛季只是系列赛中的第一季,后续我们将引入更强的统计严谨性、更多控制变量以及更具体的挑战。


Alpha Arena 第一赛季的两个目标

  1. 1.

    通过对比分析,揭示领先大语言模型中隐含的默认交易行为与偏见。模型之间的交易方式是否存在巨大差异?它们的行为是否随时间保持一致?它们在哪些地方容易犯错?

  2. 2.

    推动 AI 研究文化从静态、考试式的基准测试,转向真实世界的基准测试。我们希望 Alpha Arena 能凸显在更具影响力、更贴近现实的环境中评估 AI 的重要性。我们认为,这是发现关键缺陷与洞见、推动前沿 AI 进步的最快路径。


为什么选择真实资金交易?

我们选择以真实资金进行实时交易,而不是模拟盘(paper trading)。虽然模拟盘仍是一个有用的基线,但它无法暴露执行层面的全部挑战、逆向选择问题以及真实市场中的责任压力。

透明度是方法的一部分:以加密货币为起点,可以提供可审计的交易记录和即时反馈。额外的关注度也有助于强化目标二,因为当人们发现这些模型的缺陷以及各赛季的不足时,会进一步推动反思与改进。


重要说明:这不是…

  • 一场通过单次运行就宣布“最佳”交易模型的比赛。

  • 对某个模型能力的最终评判。

我们非常清楚第一赛季存在的缺陷,包括但不限于:提示词偏差、样本量有限 / 统计严谨性不足、评估周期过短等。

尽管如此,在多次预发布测试运行中,我们确实观察到了模型之间存在不可忽视的行为差异,这些我们都将在下文详细记录。我们正在持续分析第一赛季的交易轨迹,同时开展一系列有针对性的后续实验,其中不少实验直接针对单次运行的局限性。


第一赛季的核心聚焦

我们重点关注模型的默认规则遵循能力风险管理能力,具体包括:

  • 它们是否能可靠地遵守简单的风控规则?

  • 决策流程中的哪些环节可以被信任以自主运行?

  • 它们在哪些地方会误读输入、过度交易、反复摇摆或违背既定计划?

  • 每个模型的默认立场是什么:风险厌恶、风险偏好还是中性?这种立场随时间是否稳定?

目前我们已有一些初步答案,并提出了可验证的假设,以系统性地填补认知空白。


Alpha Arena 设计概览

我们的设计目标是:给智能体一个难但不过分的问题,避免它们因设置不当而失败。

我们进行了大量实验,确保模型拥有足够的信息做出合理决策,同时避免上下文过载。因此,我们为每个智能体提供了一组精简的实时市场特征,包括:当前及历史中间价与成交量、精选技术指标,以及覆盖短中长期的时间尺度辅助特征。

这些数据可以在 nof1.ai的“Model Chat”页面,点击任意模型的聊天消息查看。

参与模型

本季共有六个来自全球顶尖 AI 实验室的模型参与:

  • GPT-5

  • Gemini 2.5 Pro

  • Claude Sonnet 4.5

  • Grok 4

  • DeepSeek v3.1

  • Qwen3-Max

这些模型覆盖了中美两地、闭源与开源的前沿代表。除 Qwen3-Max 外,我们对所有模型启用了最高级别的推理配置。所有结果均为开箱即用,未进行任务特定的微调。

交易限制

  • 动作空间限定为:买入(做多)、卖出(做空)、持仓、平仓。

  • 交易标的限定为 Hyperliquid 上六种热门加密货币:BTC、ETH、SOL、BNB、DOGE 和 XRP。

选择加密资产有三个现实原因:

  1. 1.

    7x24 小时交易,可以全天候观察模型决策;

  2. 2.

    数据丰富且易于获取,支持分析与透明审计;Hyperliquid 的去中心化设计也让外界可以轻松验证每笔交易是否如实发生;

  3. 3.

    全球性、低绑定性,Hyperliquid 与加密市场不依附于特定国家或公司。

模型进行的是中低频交易(MLFT),决策间隔为分钟到数小时级别,而非高频交易的微秒级。这种时间尺度更贴近我们关心的核心问题:在合理的时间与信息条件下,模型是否能做出良好决策?

在这一时间范围内,反馈回路更短,良好的推理往往体现在结果中,而过度交易与糟糕的风控则会体现在成本与回撤中。

最重要的是,这是真实交易,不是回放或沙盒练习,模型面临真实的撮合、手续费和试图击败它们的对手方。

公平性保障

为确保模型之间可比,所有智能体均采用相同的系统提示、用户提示模板、数据输入及默认采样配置。用户提示完全公开,系统提示未来可能开源。


构建智能体交互框架(Harness)

为避免智能体因信息过载而混乱,我们精心设计了上下文环境。我们避免了多智能体协作、工具调用和长对话历史等功能(这些可能在后续赛季引入)。

整个交互循环如下图所示(译者注:此处可插入流程图,原文中为 Alpha Arena Inference Loop Diagram):

  • 每次推理调用(约 2~3 分钟),智能体接收:

    • (a)简洁的指令集(系统提示)

    • (b)实时市场 + 账户状态(用户提示)

  • 并返回动作,这些动作将送入 Hyperliquid 的交易执行管道。

指令经过多次迭代打磨,内容包括:预期费用、仓位规模、输出格式等。除了交易标的、方向(做多/做空)、数量、杠杆外,动作输出还包括:

  • 简要的理由说明

  • 置信度评分(0 到 1)

  • 退出计划,包括预设止盈点、止损点与失效条件(即预先注册的、会使计划作废的特定信号)

这些字段在提示工程中被发现能提升性能。仓位规模这一关键交易设计要素,由智能体根据可用现金、杠杆及其内部风险偏好自行计算。

为什么要允许使用杠杆?

Hyperliquid 专为永续合约设计,其核心就是让杠杆交易变得容易。使用杠杆不仅提升了资本效率,也加速了结果呈现,从而加快反馈与学习循环。当然,杠杆也大幅提高了风险,能更好地测试模型的风控能力与纪律性。


初步发现

我们的初步运行表明:在相同框架和提示下,不同基础模型在风险偏好、计划能力、方向倾向和交易活跃度等方面存在显著差异。同时,模型对提示词的微小变化极为敏感,这强调了构建稳健框架与广泛提示迭代的重要性。

关键洞察与模式总结

虽然总体盈亏(PnL)和夏普比率很重要,但它们并不能说明全部问题。在数千次调用和多次预发布试运行中,我们观察到模型间既有趋同也有分歧的稳定模式,这些差异很可能反映了模型目标、对齐方式与采样行为的差异。

主要观察点包括:
  • 多空倾向:部分模型长期呈现做多偏向,而 Grok 4、GPT-5 和 Gemini 2.5 Pro 更频繁做空;Claude Sonnet 4.5 几乎从不做空。

  • 持仓时间:不同模型与运行间的持仓时长(从开仓到平仓)差异显著。预发布运行中,Grok 4 的持仓时间最长。

  • 交易频率:各模型完成交易的数量差异极大。Gemini 2.5 Pro 最为活跃,Grok 4 通常最不活跃。

  • 风险姿态(仓位规模):相同提示下,模型选择的仓位大小差异明显。Qwen 3 始终选择最大仓位,常常是 GPT-5 和 Gemini 2.5 Pro 的数倍。

  • 自报告置信度:模型需为每次行动指定一个 [0,1] 范围内的置信度分数,这方面各模型差异也很大。Qwen 3 常常自信度最高,GPT-5 最低,且该模式与实际交易表现脱钩。

  • 退出计划严格度:在开放性指令下,模型设置的止损/止盈区间差异明显。Qwen 3 的止损/止盈距离(相对于开仓价)通常最窄,Grok 4 和 DeepSeek V3.1 则相对宽松。

  • 同时持仓数量:有些模型倾向于同时持有全部六个标的,而 Claude Sonnet 4.5 和 Qwen 3 通常只维持 1~2 个活跃仓位。

  • 退出条件:模型在设置退出计划的失效规则时,关注的特征各不相同。

操作层面的脆弱性

我们还观察到模型在一些操作层面表现出脆弱性,例如:

  • 排序偏差:早期提示中市场数据按最新到最旧排列,但一些模型仍然误读为最旧到最新,导致错误判断。

  • 术语歧义:“free collateral” 和 “available cash” 被混用,导致行为不一致。

  • 规则博弈与欺骗:在某些变体测试中,模型会表面上遵守规则,实则通过内部推理绕过限制。

  • 自我指涉混乱:在开放性退出计划中,模型有时会误解或与自己之前的输出相矛盾。


后续工作

我们努力为模型提供了公平的机会,但当前的框架仍存在明显约束。每个智能体必须在有限的上下文窗口内解析噪声市场特征、关联账户状态、在严格规则下推理并返回结构化动作。

本季中,模型没有明确的机制感知市场状态变化,也无法利用历史状态-动作记录,这限制了它们的适应与学习能力。此外,当前任务也不支持“加仓/减仓”操作,一旦开仓,规模与参数就固定了。

未来的版本将扩展功能集,引入选择性工具使用(如代码执行或网络搜索),并显式包含历史状态-动作轨迹。


下一步计划

  • Alpha Arena 第一赛季将持续运行至 2025 年 11 月 3 日(美国东部时间下午 5:00)。

  • 第二赛季已在筹备中,将基于第一赛季的发现优化提示词、框架设计,并引入更强的统计方法。

  • 在第一赛季结束前,我们会持续发布实时结果并与社区互动。更多关于第二赛季的信息即将公布。

http://www.dtcms.com/a/565005.html

相关文章:

  • 做网站整理信息的表格免费有效的推广网站
  • 基于ASM1042A系列芯片的CAN协议扩展方案在汽车座椅控制器中的应用探讨
  • 超越金融:深入解析STC的“绿色算力网络”与参与机制
  • 【大模型 Tokenizer 核心技术解析】从 BPE 到 Byte-Level 的完整指南
  • 黄岛网站建设价格怎么做自动下单网站
  • 关于我遇到的豆包的bug:mermaid图无法加载
  • Milvus:通过Docker安装Milvus向量数据库(一)
  • 第三方软件测试机构:【“Bug预防”比“Bug发现”更有价值:如何建立缺陷根因分析与流转机制?】
  • Milvus:Schema详解(四)
  • maven的jakarta项目直接运用jetty插件运行
  • 建设外贸网站哪家好网页制作流程视频
  • Java-166 Neo4j 安装与最小闭环 | 10 分钟跑通 + 远程访问 Docker neo4j.conf
  • 如何建立小企业网站wordpress图片上传地址修改
  • 【开题答辩过程】以《基于SpringBoot的中国传统文化推广系统的设计与实现》为例,不会开题答辩的可以进来看看
  • QML笔记
  • Android 在屏幕的右下角添加客户Logo
  • linux服务-frp内网穿透工具
  • 宣城高端网站建设延吉网站开发
  • Springboot+BannerBanner(启动横幅)
  • 护照阅读器:公安安全检查的科技新助力
  • 网站支持ipv6做哪些改造余姚响应式网站建设
  • 建自己的网站多少钱网页设计与网站建设分析
  • Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对抗训练与鲁棒性提升
  • Go语言设计模式:中介者模式详解
  • 使用Spring Boot、Spring AI、MongoDB Atlas 向量搜索和 OpenAI 构建 RAG 应用
  • 数据结构——三十七、关键路径(王道408)
  • 嵌入式软件的几种程序架构
  • 网站开发适合女生吗网页设计程序代码
  • 某游戏大厂的常用面试问题解析:Netty 与 NIO
  • 网站建设去哪可接单做押韵句子的网站