当前位置：首页 > news >正文

VLA技术论文阅读

news 2025/9/28 5:10:23

文章目录

摘要
introduction
VLA简单讲解
- 基础
- 训练和评估VLA模型的指标
- - 训练方式
  - 评估指标
VLATest method
- 算子
- 测试场景生成
- - 采样语义有效的目标对象
  - 采样混淆对象
  - 改变光照条件和相机姿势
测试策略
- 研究问题
- VLA模型总结
- 任务分类
- 实现细节
实验结果
- RQ1：VLA模型在==常见==的机器人操作任务中表现如何？
- - 模型测试结果
  - 测试覆盖度指标设定
- RQ2：混淆对象的数量如何影响VLA模型的性能？
- - 模型测试结果
- RQ3：照明条件的变化是否会影响VLA模型的性能
- RQ4：相机姿态的变化是否会影响VLA模型的性能？
- RQ5：VLA模型对不可见物体的鲁棒性如何？
- RQ6：VLA模型对任务指令突变的鲁棒性如何？
探讨
- VLA模型的潜力和可改进的方向
- 鲁棒性挑战
- 评估VLA模型的能力
- VLA模型的有效测试
实验
个人思考
- 可以提高的地方
- - VLA的评估指标太过于简单
  - VLATest有缺陷
- 方向思考
- 问题

项目实在是太忙了，受不了了，抽空读读论文写写总结了，加油。

VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation
large language models (LLMs)
vision-language models (VLMs)
vision-language-action (VLA) models

摘要

背景
生成式人工智能和多模态基础模型的快速发展在推进机器人操纵方面显示出巨大的潜力。特别是视觉语言动作（VLA）模型。
现有测试方法的不足
然而，当前的VLA模型通常使用有限的一组手工制作的场景进行评估，这使得它们在各种场景中的总体性能和鲁棒性在很大程度上没有得到探索。为了解决这一差距，我们提出了VLATest，这是一个模糊框架，旨在生成用于测试VLA模型的机器人操作场景。
实验
基于VLATest，我们进行了一项实证研究，以评估七个代表性VLA模型的性能。我们的研究结果表明，当前的VLA模型缺乏实际部署所需的鲁棒性。
此外，我们还研究了各种因素对VLA模型性能的影响，包括混淆对象的数量、照明条件、相机姿势、看不见的对象和任务指令突变。我们的研究结果突出了现有VLA模型的局限性，强调了需要进一步研究以开发可靠和值得信赖的VLA应用程序。

introduction

问题提出
背景：机器人操作（robotic manipulation）在工业、医疗、物流等领域很重要。
新机会：Vision-Language-Action (VLA) 模型结合了视觉、语言和动作，能够通过自然语言指令来驱动机器人执行任务。
VLA模型目前存在的一些问题
本文没有概述
目前现有的测试方法概括
手工设计场景：目前主要依赖有限的、人工设定的测试任务（比如一些固定的机器人操作 demo）。
经验驱动：测试往往覆盖面不广，不能揭示模型在不同光照、视角、干扰物或陌生物体下的性能。
但是这些现有的测试方法都有问题
覆盖不足：只能测到少数场景，难以反映真实复杂环境。
不系统：没有对多维度因素（光照、相机角度、干扰物数量、任务复杂度、语言指令变化等）进行全面考察。
结果不可信：模型可能在测试集上表现不错，但遇到新场景或不同指令就崩掉。
问题：现有 VLA 模型大多只在少量手工设计的场景里测试，缺乏对其整体性能和鲁棒性的系统评估。
目标：急需新的测试方法来全面评估 VLA 模型在复杂和多变环境下的表现，确保其可靠性和安全性。

我们的测试方法：VLATest
核心思路：提出一个基于 fuzzing（随机生成+系统扰动）的场景生成框架，能大规模自动生成机器人操作任务场景。
实现方式：
在Maniskill2仿真环境里实现。
设计了10 种测试算子（operators），比如增加干扰物、改变光照、调整相机位置、替换新物体、改写任务指令等。

我们设计了一组研究问题，以检查使用VLA进行可靠机器人操作的关键因素：基本性能、任务复杂性、感知鲁棒性、**OOD（out-of-distribution）**鲁棒性和语言模型鲁棒性。具体而言，我们调查了以下六个研究问题：
RQ1 VLA模型在常见的机器人操作任务中的表现如何？
RQ2 混淆物体的数量如何影响VLA模型的性能？
RQ3 照明条件的变化是否影响VLA模型的性能？
RQ4 摄像机姿态的变化是否影响VLA模型的性能？
RQ5 VLA模型对不可见对象的鲁棒性如何？
RQ6 VLA模型对任务指令突变的鲁棒性如何？

针对这些问题，我们选取了七个典型 VLA 模型：RT-1-1k、RT-58k、RT-400k、RT-1-X、Octo-small、Octo-base、OpenVLA-7b，作为实验对象。我们自动生成18604个测试场景，运行了78604轮仿真（耗时 580+ GPU 小时）。

实验
当前 VLA 模型在复杂任务和变化条件下表现很差。
干扰物增多 → 任务成功率显著下降。
光照、相机角度变化 → 模型鲁棒性不足。
对陌生物体和改写后的任务指令 → 表现尤其差。
但大规模预训练的模型（比如 RT-2）相对鲁棒性好一些。

贡献总结

实验研究
进行了一项大规模的实证研究，以评估在各种条件下，包括混淆对象的数量，照明条件，相机姿势，和操纵的可见和不可见的对象的变化，在四个机器人操作任务的七个流行的VLA模型的性能和鲁棒性。
一个测试框架
为了进行我们的实证研究，我们设计并实现了一个基于生成的模糊框架，VLATest，测试VLA模型。
影响和开源
我们讨论了当前VLA模型的挑战和局限性，沿着的影响和未来的机会，以提高其鲁棒性和可靠性。https://github.com/ma-labo/VLATest

VLA简单讲解

基础

视觉-语言-动作模型视觉-语言-动作（VLA）模型[7，40，59，75]是一种深度神经网络，它将来自用户的自然语言输入作为任务指令，将来自相机的视觉输入作为观察结果。VLA模型的输出是根据任务指令实现指定操作的一组动作，例如移动机械臂的关节和打开夹具。
输入：语言文本+图像
输出：机器人动作

输入处理
首先，语言部分会经过分词器（tokenizer），把句子拆解成一串“词向量” {t1, …, tm}。
图像部分会经过视觉编码器（visual encoder），转成一串“图像向量” {i11, …, i1n}。
这两组向量，就像是把语言和图像都翻译成了计算机能理解的“词块”。
然后，把这些语言 token 和图像 token 拼在一起，输入到 Transformer 模型中。
动作预测
Transformer会输出动作token A1，这表示机器人下一步要做什么。
接下来，动作头（action head）会把这些token翻译回实际的机器人动作参数：
Δx1 ∈ R³：末端执行器的平移（x, y, z 方向的移动量）。
Δθ1 ∈ R³：末端执行器的旋转角度。
Δgrip1 ∈ R¹：机械爪的开合动作。
迭代交互
机器人执行完这一步动作后，会有新的观察结果：
生成新的图像tokens I2（机器人现在看到的新画面）。
动作tokens A1（上一步动作的记录）。

训练和评估VLA模型的指标

训练方式

(1) 从零开始训练（Training from scratch）
在机器人学里，常见的做法是模仿学习（Imitation Learning）：人类先演示一遍任务（比如用手操控机械臂去抓杯子），然后把这个过程的输入输出都记录下来。用这些数据训练 VLA 模型，就等于让模型“看人怎么做，然后学着模仿”。
(2) 微调通用 VLM（Fine-tuning from a general-purpose VLM）
在VLM的基础上，让模型具备怎么把“识别结果”转化成具体动作（x,y,z移动、旋转、抓取）的能力。

评估指标

评估指标（metrics）：
以“抓取物体（pick up an object）”为例，常见指标有：

是否抓到正确的物体（准确性）grasps
是否成功把物体提起（完成度）lifted
是否能稳定地保持一段时间（鲁棒性）success

评估环境：
仿真环境，优点：自动化评估，不用人工逐个看。缺点：可能和真实世界有差距。
真实环境：优点：效果更真实。缺点：需要人工标注，耗时费力。

VLATest method

算子

我们在VLATest中考虑了四类算子，如图2所示，总共有十个算子。
在这里插入图片描述
目标对象。目标对象是指任务中需要操作的对象（例如，要拾取的对象）或任务中用作参考的对象（例如，要放置的对象）。对于每个目标对象，我们考虑三个不同的操作符：（1）对象类型（例如，百事可乐罐），（2）位置和（3）方向。
混淆对象。与目标对象不同，混淆对象通常不是任务的一部分，并且机器人在操作过程中应避免接触这些对象。除了目标对象的三个操作符之外，我们还考虑混淆对象的数量作为混淆对象类别中的一个独特操作符。
光照。光照条件影响摄像机捕获的图像的渲染，从而影响VLA模型的视觉输入。我们将光照强度视为一个算子。
摄像机。摄像机的姿态也会影响VLA模型的视觉输入。我们将其位置和方向视为VLATest中的两个独立算子。

测试场景生成

采样语义有效的目标对象

避免fuzzing生成的不科学场景。

采样混淆对象

我们认为具有不同语义的相似对象是不同的。例如，可口可乐罐被认为不同于百事可乐罐。因此，在一个场景中将它们两者作为混淆对象是可能的。对于每个混淆对象，我们遵循与用于对目标对象进行采样以指定其位置和方向相同的过程（第14行）。在我们的实证研究中，我们利用随机采样器来生成位置和方向。

改变光照条件和相机姿势

对于光照条件，我们生成一个因子来改变光照强度值（第18-20行）。对于摄像机，我们将其位置调整一个距离，并将其旋转一个角度（第21-23行）。请注意，和都保持较小，以确保整个场景都在摄像机的视野之内。

测试策略

研究问题

基本性能（RQ 1），任务复杂性（RQ 2），感知鲁棒性（RQ 3和RQ 4），OOD（out-of-distribution）鲁棒性（RQ 5）和语言模型鲁棒性（RQ 6）。

VLA模型总结

为了研究我们的研究问题，我们研究了四个不同系列的开源VLA模型，共7个：
RT-1 [7]，包含三个变体，RT-1-1 k，RT-1-58 k和RT-1-400 k 1
RT-1-X [59]
Octo [75]，包含两个变体，Octo-small和Octo-base
OpenVLA [40]
在这里插入图片描述

任务分类

任务1：拾取物体
任务2：将物体A移动到物体B（精度需满足0.05m）
任务3：将物体A放在物体B的顶部
任务4：将对象A放入对象B中

实现细节

我们在Manismid 2仿真环境中实现了VLATest [26，44]。我们使用了两个对象数据库：
（1）RQ 1 ~ RQ 4和RQ 6中Manismid 2中的默认对象数据库（N = 18），以及
（2）RQ 5中的YCB对象数据库（N = 56）。
一个操作任务的平均执行时间约为19.8秒。我们的实证研究总共花费了约586 GPU小时。

实验结果

RQ1：VLA模型在常见的机器人操作任务中表现如何？

模型测试结果

为了研究这个研究问题，我们利用VLATest为四个机器人操作任务中的每一个生成1,000个场景，随机选择目标对象并采样0到3个混淆对象。我们还随机为这些对象分配姿势。为了避免碰撞重叠，在任务中，我们保持物体之间的最小距离为0.15米。2默认的灯光设置和摄像机姿态用于这个RQ。
表2给出了七种VLA模型在这些任务和场景中的性能。总体而言，我们发现当前的VLA模型在四种研究的机器人操作任务中表现不佳。
在这里插入图片描述

在四个任务中，七个VLA模型的平均成功率分别为12.4%、6.0%、1.2%和0.5%。在任务1中，性能最好的VLA模型RT-1- 400 k仅在34.4%的测试场景中成功。我们还观察到任务2、任务3和任务4中的性能显著下降。
发现1：所有的VLA模型表现出低于标准的性能在四个研究的机器人操作任务，特别是在那些需要识别多个目标对象（即，任务2，任务3，任务4）。这些结果表明，VLA模型的发展仍处于早期阶段，因为他们是远远没有准备好部署在现实世界中的场景。

为什么这么差？
这些VLA模型性能低于标准的原因：当前的VLA模型很难解释需要机器人执行多个顺序动作的自然语言指令。在任务2、任务3和任务4中，VLA模型在16%至25%的场景中成功拾取了源对象。但是，它们随后未能识别目标对象，只有0.6%至13.7%的对象被正确移动，0.5%至6.0%的对象被正确放置。为了改进，可以考虑在LLM中进行思想链提示的想法。具体地，复杂的任务指令可以被解耦为单独的动作步骤，从而允许逐步提示VLA模型。
发现2：目前的VLA模型不能成功地执行需要多个步骤的行动的任务，突出了迫切需要提高其准确解释任务指令的能力。

PS：这个方向超级有意思，他是靠各种设计正向场景、异常场景，边缘场景来验证算法的功能和发现算法的缺陷，这些都是发论文所必须要的发现问题的能力。不仅可以发如何发现问题的论文，还可以发解决问题的论文

测试覆盖度指标设定

为了评估VLATest生成的测试场景的质量，我们进一步计算了测试覆盖率。然而，据我们所知，没有现有的覆盖率指标适用于VLA模型或机器人操作。神经元覆盖率等指标的计算可能需要大量的计算，因为VLA模型通常是在具有数百万甚至数十亿个参数的非常大的数据集上训练的。
我们遵循之前在自动驾驶中的工作来实现轨迹覆盖[35]。我们认为这是实现测试覆盖测量的务实选择。我们在第8节中承认其局限性。具体来说，我们计算了根据操纵平台的大小覆盖了多少新的目标对象位置如表3所示，我们发现将生成的测试用例的数量𝑛从10增加到1000允许VLATest在所有四个任务上实现100%的覆盖率，这表明我们生成的测试场景已经足够了。
[35] Zhisheng Hu, Shengjian Guo, Zhenyu Zhong, and Kang Li. 2021. Coverage-based Scene Fuzzing for Virtual Autonomous Driving Testing. arXiv preprint arXiv:2106.00873 (2021).
问题（为什么他们自己说覆盖不太行？）
他们的覆盖率指标只看了“物体位置”，而没有考虑：
1 物体类别多样性（杯子 vs 书本 vs 工具）。
2 物体姿态（竖放 vs 横放）。
3 环境条件（光照、遮挡、背景干扰）。
4 动作多样性（抓取路径不同，但位置可能相同）。

RQ2：混淆对象的数量如何影响VLA模型的性能？

模型测试结果

我们使用VLATest为每个任务生成100个场景，其中混淆对象的数量是固定𝑛的，其中𝑛设置为0，1，2，3和4，每个任务总共有500个场景。
在前两个任务中（即任务1和任务2），我们观察到VLA模型的成功率随着混淆对象数量的增加而下降。
发现3：混淆对象的数量影响VLA模型的性能，表明VLA模型在更复杂的环境中变得不可靠。当场景中存在四个混杂对象时，VLA模型在任务1、任务2、任务3和任务4中分别仅通过了8.2%、2.3%、1.0%和0.4%的测试场景。
在这里插入图片描述
发现4：在场景中有多个混淆对象的情况下，VLA模型准确定位要操纵的正确对象的能力可能会受到显着影响。

RQ3：照明条件的变化是否会影响VLA模型的性能

首先收集了RQ 1中每个VLA模型的所有成功执行的场景，总共有1，434个测试用例通过。然后，我们在随机增加或减少照明强度（= 4，302）后重新执行这些测试用例三次𝑁。（相当严谨，控制变量）
我们手动检查了将亮度设置为20和1/20的情况，并确认在这种照明条件下拍摄的图像仍然可以被人类识别。

总体而言，我们发现随机扰动光照条件会显著影响VLA模型的性能。在七个VLA模型中，我们发现OpenVLA-7 b是最健壮的，在突变的光照条件下仍有77.9%的测试用例通过。一个合理的解释是，OpenVLA-7 b利用了两个视觉模型（即SigLIP [92]和DinoV 2 [57]），它们在不同的图像集上进行了预训练，并在LLaVA 1.5数据混合（100万张图像和文本）上进行了微调。因此，OpenVLA-7 b可以有效地解释在不同光照条件下捕获的图像。
Octo-small and Octo-base 仅使用从机器人演示中捕获的图像进行训练，这使得它们在面对与默认照明条件不同的照明条件时的鲁棒性较差。

发现5：VLA模型对光照变化的鲁棒性不够。只有61.3%的测试用例在突变光照条件下仍然可以成功执行。在七个VLA模型中，OpenVLA-7 b对光照变化的鲁棒性最高。

发现6：VLA模型的性能随着光照强度的增加而下降。当光照强度超过默认值的8倍时，VLA模型只能在默认光照条件下通过的测试场景中成功约40%。

发现7：降低光照强度对VLA模型性能的影响更小，增加光照强度显着。即使将光照强度降低至默认值的0.15，VLA模型仍然可以通过60%的测试用例。

RQ4：相机姿态的变化是否会影响VLA模型的性能？

与RQ 3类似，我们在随机移动并旋转相机（从默认位置（= 4，302））后，重新执行了从RQ 1收集的1，434个通过的测试用例三次𝑁。具体来说，我们围绕每个轴旋转相机一个角度在-5 ° C和5 ° C之间随机采样。
我们发现VLA模型的性能受到突变相机姿态的极大影响。随着突变相机姿态，受试VLA模型仅通过34.0%使用默认相机姿势可以通过的测试用例。这些结果表明当前的VLA模型对相机的外部校准结果非常敏感。在部署VLA模型时，为了实现兼容的性能，开发人员需要仔细设置相机姿势，例如用于训练的机器人演示数据。但是，这些可能会限制VLA模型的可推广性。未来的工作可能会考虑数据增强以提高VLA模型在不同相机设置下的鲁棒性，以增强可推广性。

发现8：当前的VLA模型对突变的摄像机姿态并不鲁棒，导致当视觉输入从与默认角度不同的角度捕获时性能下降。当摄像机旋转最大角度5 °并移动最大距离5 cm时，性能下降到默认摄像机姿态下平均性能的34.0%。

RQ5：VLA模型对不可见物体的鲁棒性如何？

为了研究这个研究问题，我们使用了一个外部对象数据集YCB [9]。YCB包含56个未包含在Open-Embodiment-X数据集中的对象（我们七个主题VLA模型的训练/微调数据集）。与RQ 1类似，我们利用VLATest生成1，在对目标对象和来自YCB数据集的混淆对象进行采样的同时，对四个主题机器人操作任务中的每一个进行了000个测试场景。我们将这些主题VLA模型与来自YCB数据集的对象的性能与RQ 1中的结果进行了比较。
当操纵不可见物体时，主题VLA模型的性能与操纵可见物体相比显著下降。不同VLA模型的平均性能在任务1、任务2、任务3、任务4和任务5中分别下降了74.2%、66.7%、66.7%和20.0%。和任务4。值得注意的是，我们还发现，这些VLA模型在操作不可见物体时都没有完全失败（除了那些在操作可见物体时也失败的模型）。这些结果表明，虽然所有VLA模型都表现出将自己推广到不可见物体的某些可能性，但性能远不可靠。

发现10：当前的VLA模型，虽然表现出推广的潜力，仍然是不可靠的处理看不见的对象。我们的主题VLA模型看到了从20.0%到74.2%，在四个任务时，操作看不见的对象相比，看到的对象的性能下降。

由于模型必须在每个步骤中成功完成测试场景，因此我们定义了一个称为传输速率（transfer rate）的度量，它计算模型从一个步骤到下一个步骤的成功传输能力。

发现11：当前的VLA模型很难识别看不见的物体，这是大多数测试场景失败的主要原因。

RQ6：VLA模型对任务指令突变的鲁棒性如何？

我们使用GPT-4 o生成标准任务指令的10个变体（第4.4节）我们只生成了有限数量的突变，以便我们可以手动验证每个突变。两位作者手动验证并确认所有生成的突变都是在语义上等同于相应的标准任务指令。然后我们为四个任务中的每一个重新执行RQ 1（第5.1节）中生成的所有测试场景。对于每个测试场景，我们随机应用一个变异的任务指令。这些变异的指令可以在我们的Git存储库中找到。例如，用于任务2的变异任务指令可以是：将[OBJECTIVE A]放置在[OBJECTIVE B]附近。
我们发现OpenVLA-7 b，对任务指令突变的鲁棒性更强。这种鲁棒性可能归因于OpenVLA-7 b使用Llama 2作为其语言模型，这可能增强了其语言理解能力。
发现12：当前的VLA模型对任务指令突变的鲁棒性有限。然而，包含大型语言模型的VLA模型（例如，OpenVLA-7 b使用Llama 2- 7 b作为语言模型）更加鲁棒。

探讨

我们的研究揭示了几个关键的影响，可以导致更好的和更可靠的VLA模型的机器人操作的发展。在这一节中，我们讨论这些影响，并探讨未来的研究机会。

VLA模型的潜力和可改进的方向

虽然VLA模型有可能彻底改变机器人操作，我们在RQ 1和RQ 2的实验结果表明，目前的模型仍然是不可靠的常见的机器人操作任务在本研究的时间。部署VLA模型在高风险和安全关键的应用仍然是不切实际的。
我们的详细分析表明，缺陷主要来自于缺乏精确解释复杂任务需求和准确定位正确目标对象的能力。我们认为在解决这些问题方面有巨大的改进空间。
一个潜在的解决方案是扩大模型规模。目前，即使是我们研究中最大的模型OpenVLA-7 b也只有70亿个参数，明显小于其他领域的最新（SOTA）模型。例如，最大的开源LLM之一，Llama 3.1，有4050亿个参数。GPT-4和Claude-3.5等闭源LLM通常具有更高数量的模型参数。通过按比例放大模型，我们还可以观察VLA模型的涌现能力[8]。
VLA模型很难将复杂的任务指令分解为多个操作步骤。为了解决这个问题，可以考虑逐步提示VLA模型。这也符合LLM领域流行的提示策略之一–思维链提示。虽然我们的研究只探索了最基本的提示，未来的研究应探索更先进的激励技术，以评估其对VLA模型性能的影响。探索VLA模型的提示策略可能是一个有前途的研究方向。
此外，还可以引入多智能体系统来在多个VLA智能体之间分配机器人操作任务，这是在其他领域中广泛使用的策略[84，87，94]。

鲁棒性挑战

丰富机器人演示数据。由于手动收集真实世界的机器人演示数据需要大量的标记工作，研究人员可以考虑利用数据增强技术[2，5]或采用sim 2 real翻译[32，96]通过利用模拟环境来扩展训练数据。例如，在未来，可以利用设计良好的传统控制器来引导机器人解决测试场景。机器人的演示可以作为重新训练或微调的数据。
此外，我们的发现6、发现7和发现8表明，当照明和摄像机角度等外部因素明显偏离默认设置时，VLA模型的性能会相应下降。
这表明，现有的机器人演示数据集可能缺乏多样性，特别是在外部条件的变化方面。在未来的工作中，当收集数据集用于训练/微调因素时，从业者应该考虑这些环境因素，这可能会导致更强大的VLA模型的训练。

评估VLA模型的能力

当前的 VLA 模型在遇到未见过的物体时表现不佳，所以不能指望它们在所有场景下都能成功完成任务。除了提升模型能力外，还需要建立系统的方法来全面评估模型能力并提供使用指南。具体方向包括：
离线基准测试：比如他们提出的 18,604 个生成测试场景，可扩展到更多任务、环境和对象。
在线风险评估：借鉴不确定性估计、安全监控等方法，用于实时判断模型决策的可靠性。

VLA模型的有效测试

虽然我们提出的VLATest成功地识别了我们的主题VLA模型中的许多失败的测试场景，但它也产生了显着的时间开销。具体来说，我们依赖于随机采样器对测试场景中的目标对象和混淆对象进行采样，这可能不是最有效的方法。未来的研究可以集中在优化𝑝𝑜𝑠𝑒𝑠𝑎𝑚𝑝𝑙𝑒𝑟算法1中的策略，为对象和混淆对象分配关键位置和方向。例如，可以考虑基于变形的方法[24，81，90]或基于搜索的方法[13，97]来有效地生成VLA模型的测试场景。同时，研究人员还可以研究测试优先级[14，22，47]或测试选择[1，23，34，[37]对VLA模型进行有效测试。
随着 VLA 模型不断进化，测试方法也必须同步变得更复杂和自适应，以跟上模型发展的节奏。

实验

待完成。。。

个人思考

可以提高的地方

随着 VLA 模型不断进化，测试方法也必须同步变得更复杂和自适应，以跟上模型发展的节奏。

VLA的评估指标太过于简单

目前只有对grasp、lifted、move、success这几个相关动作执行是否正确的指标，而响应速度，抓取速度等等并没有考虑进去，感觉测试指标的覆盖率不够。

VLATest有缺陷

改进采样（pose_sampler）——思路与具体方法
目标：生成覆盖关键/高风险位置与姿态的物体摆放，而不是盲目随机，从而提高“每个测试的发现缺陷概率 / 单位时间的覆盖”。

变形测试（Metamorphic Testing）——什么是、怎么用
核心：当没有可靠的“oracle”判断正确/错误时，基于**元变换（metamorphic relations）**生成新场景并检验“不变性”或预期关系是否保持。
适合 VLA 因为直接判定“是否正确”往往昂贵或主观。
整体平移/旋转场景（摄像机不变）：如果目标是抓特定物体，整体小平移不应改变“能否成功抓取”的结论（注意物理可行性）。
换光照 / 改背景纹理：语义相同情况下模型应稳定。
替换等价物体（尺寸/材质可近似）：若两个物体语义等价，行为期望相似。
添加无关干扰物（增加杂物）：不应改变对目标的识别/抓取（若干扰超出阈值则可视为失败判定点）。
局部遮挡/视角微扰：小范围遮挡或相机微调不应导致任务完全失败。

方向思考

之前的论文发表是靠实际的异常落地场景，或者靠模拟一些传感器的异常，来改进算法，解决问题，完成实验，并发表论文。
而Test方向有意思的点在于，其靠各种设计正向场景、异常场景，边缘场景来验证算法的功能和发现算法的缺陷，这些都是发论文所必须要的发现问题的能力。不仅可以发如何发现问题的论文，还可以发解决问题的论文。