当前位置：首页 > news >正文

【论文研读】NASA-TLX（任务负荷指数）研发报告总结

news 2025/11/11 15:43:29

原文链接：Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research

本文围绕NASA-TLX（任务负荷指数）展开，通过多年实证与理论研究，明确主观工作负荷的影响因素，提出多维度评分量表，旨在为不同任务场景下的工作负荷评估提供科学、可靠的工具。

一、研究概述

图 1. 影响人类绩效与工作负荷的变量关联概念框架

研究背景：工作负荷虽定义存在争议，但在人机交互、航空航天等领域是关键可测指标。主观评分是常用评估方法，却面临个体差异大、负荷来源难定位的问题，亟需更科学的评估工具。
研究团队：由美国国家航空航天局艾姆斯研究中心的Sandra G. Hart与圣何塞州立大学的Lowell E. Staveland主导。
研究周期与核心目标：历经多年研究，旨在识别影响主观工作负荷的关键因素，明确其范围、锚点与区间值，开发多维度、高敏感性且低个体差异的工作负荷评分量表（NASA-TLX）。
数据基础：基于16项实验，涵盖简单认知任务、手动控制任务、复杂实验室任务、监控控制任务及飞行模拟等，收集247名受试者的3461条评分数据与权重数据。

二、理论框架与核心概念

工作负荷定义：是假设性构念，代表操作者为达成特定绩效水平的“成本”，具有人本性，由任务需求、执行环境与操作者技能、行为、感知交互形成，非任务固有属性。
三类关键概念区分
- 施加的工作负荷：操作者面临的情境，受任务目标、时长、结构及人/系统资源影响，还会因环境、系统故障等偶然因素变动。
- 系统响应：人-机系统的行为与成果，体现操作者策略、努力及系统特性，绩效反馈会影响操作者后续行为调整。
- 体验到的工作负荷与生理后果：任务对操作者的影响，主观体验是主观评分的核心，但易受先入为主观念影响，且未必涵盖所有相关因素。
主观评分特性
- 优势：最贴近心理工作负荷本质，能整合多类负荷影响因素，唯一反映任务对操作者主观影响。
- 局限：个体难量化、记忆短暂体验，可能含无关信息或遗漏关键信息，实验要求的量化评估非自然行为，易产生偏差。

三、研究方法

图 2. 主观工作负荷评估过程模型

因素筛选与量表开发
- 先从19个因素中筛选出14个与工作负荷相关的核心因素，再开发10个双极评分量表（表1），涵盖整体工作负荷（OW）、任务难度（TD）等维度。
- 量表以12厘米线段呈现，无数字显示，数据分析时赋值1-100，用于评估25项研究，重点分析16项结果。
权重确定方法：采用成对比较法，让受试者对9个因素的36种配对组合选择与工作负荷更相关的因素，以选择次数作为因素在计算加权工作负荷分数（WWL）中的权重。
数据分类与分析
- 按任务类型将16项研究数据分为6类：单一认知任务、单一手动控制任务、双任务、FITTSBERG任务、POPCORN监控控制模拟任务、飞行模拟任务。
- 运用方差分析、相关分析、回归分析、非参数K-S检验等方法，分析量表敏感性、相关性及对整体工作负荷的预测能力。

图 3：评分量表说明

量表名称	端点描述	核心含义
整体工作负荷（OW）	低-高	综合所有来源和组成部分，任务的总体工作负荷
任务难度（TD）	低-高	任务的难易程度，如简单/复杂、严苛/宽松
时间压力（TP）	无-紧迫	任务元素发生节奏带来的压力，如缓慢从容/快速紧张
自身绩效（OP）	失败-完美	对自身完成任务目标的成功度和满意度
心理/感官努力（ME）	无-极高	所需的心理和感知活动量，如思考、记忆、搜索等
体力努力（PE）	无-极高	所需的体力活动量，如推、拉、控制、激活等
挫折感（FR）	满足-恼怒	内心的不安、沮丧、烦躁与安心、满足、平静的程度
压力水平（ST）	放松-紧张	焦虑、担忧、紧张与平静、镇定、放松的程度
疲劳感（FA）	疲惫-警觉	疲倦、劳累与精力充沛、活跃的程度
活动类型（AT）	技能型-规则型-知识型	任务需机械反应、应用已知规则或问题解决的程度

该表格是NASA-TLX（任务负荷指数）研发阶段核心的10项双极主观评分量表，用于从不同维度量化评估任务给操作者带来的主观工作负荷。表格中部分“Descriptions”（说明）存在文本排版拆分或拼写误差，以下结合研究语境，从“量表定位、评分逻辑、核心含义”三方面逐行解析，同时修正表述并补充实践价值：

1. OVERALL WORKLOAD（整体工作负荷）

维度	内容	解析
Title（量表名称）	整体工作负荷	量表的“全局总结性指标”，不区分具体负荷类型，聚焦任务带来的综合主观负担。
Endpoints（评分端点）	Low（低）- High（高）	采用双极形容词锚定，让操作者根据整体感受在“低负荷”到“高负荷”间选择，无中间具体数值（后续数据分析时赋值1-100）。
Descriptions（说明）	“任务相关的总工作负荷，需综合所有来源及组成部分”（修正原文排版拆分）	核心是“整合性”——需覆盖心理、体力、时间等所有负荷维度，而非单一因素。例如评估飞行任务时，需同时考虑操控难度、信息处理量、时间压力等，最终给出整体负荷判断。实践价值：作为不同任务、不同难度水平间“整体负荷对比”的基准，是后续与其他细分维度（如任务难度、时间压力）关联分析的核心参考。

2. TASK DIFFICULTY（任务难度）

维度	内容	解析
Title（量表名称）	任务难度	聚焦“任务本身的客观属性”，而非操作者的主观负担，是负荷的“潜在诱因”之一。
Endpoints（评分端点）	Low（低）- High（高）	锚定“简单”到“复杂”的难度梯度，反映任务要求的“固有复杂程度”。
Descriptions（说明）	“任务的难易程度：是简单还是复杂、要求严苛还是容错性高”（修正原文“ing”“demand-”等排版拆分）	核心是“任务客观要求的复杂程度”，如操作步骤数量、规则复杂度、容错率（例如“简单数据录入”难度低，“多参数飞行调控”难度高）。关键区分：与“整体工作负荷”不同——难度高的任务未必负荷高（如熟练飞行员应对复杂任务时，因技能娴熟，主观负荷可能低于新手应对简单任务）。

3. TIME PRESSURE（时间压力）

维度	内容	解析
Title（量表名称）	时间压力	聚焦“时间维度对负荷的影响”，是动态任务（如监控、驾驶）中核心的负荷来源。
Endpoints（评分端点）	None（无）- Rushed（紧迫）	锚定“无时间压力”到“极度紧迫”的感受，反映任务节奏的主观体验。
Descriptions（说明）	“因任务元素发生的节奏而感受到的压力：任务是缓慢从容还是快速紧张”（修正原文“occured”“the rate at which…”等排版拆分）	核心是“任务节奏的主观感知”，例如“任务元素出现速度快（如每2秒需处理1条信息）”“操作有严格时限（如10秒内必须完成决策）”都会提升时间压力。实践场景：是POPCORN任务（监控控制模拟）的主要操纵变量——通过调整任务元素移动速度、组间间隔时间，直接改变操作者的时间压力，进而观察负荷变化。

4. PERFORMANCE（自身绩效）

维度	内容	解析
Title（量表名称）	自身绩效	聚焦“操作者对自身任务完成情况的主观判断”，是“负荷→绩效→负荷”反馈链的关键环节。
Endpoints（评分端点）	Failure（失败）- Perfect（完美）	锚定“未达成目标”到“完全达成目标”的主观评价，同时隐含对成果的满意度。
Descriptions（说明）	“你认为自己完成要求任务的成功程度，以及对所达成成果的满意程度”	核心是“绩效反馈的主观感知”——虽不直接衡量“负荷”，但与负荷高度相关：负荷过高易导致绩效下降，而绩效不佳（如频繁出错）又会反过来增加心理负担，提升主观负荷。数据价值：用于分析“负荷与绩效的交互关系”，例如判断某任务是否因负荷过高导致绩效显著下降。

5. MENTAL/SENSORY EFFORT（心理/感官努力）

维度	内容	解析
Title（量表名称）	心理/感官努力	聚焦“认知与感知层面的主观投入”，是脑力密集型任务（如计算、记忆）的核心负荷维度。
Endpoints（评分端点）	None（无）- Impossible（极高，原文“_¥one”为输入误差，修正为“None”；“Impossible”字面为“不可能”，结合语境译为“极高”，表示努力程度趋近极限）	锚定“无需心理投入”到“需极致心理努力”的梯度，反映认知活动的强度。
Descriptions（说明）	“完成任务所需的心理和/或感知活动量（如思考、决策、计算、记忆、观察、搜索等）”（修正原文排版拆分）	核心是“认知资源的消耗”，覆盖“信息处理”（如计算）、“记忆提取”（如回忆规则）、“感官识别”（如搜索目标）等环节。典型场景：在单一认知任务（如 mental arithmetic 心算、Sternberg 记忆搜索）中，该维度评分与整体负荷高度相关（相关系数0.72，表1-124），是此类任务的核心负荷指标。

6. PHYSICAL EFFORT（体力努力）

维度	内容	解析
Title（量表名称）	体力努力	聚焦“身体活动层面的主观投入”，是体力密集型任务（如手动控制、操作设备）的负荷维度。
Endpoints（评分端点）	None（无）- Impossible（极高，原文“]_'onej”为输入误差，修正为“None”；“Impossible”译为“极高”，同上文）	锚定“无需体力投入”到“需极致体力努力”的梯度，反映身体活动的强度。
Descriptions（说明）	“完成任务所需的体力活动量（如推、拉、转动、控制、启动等）”	核心是“身体肌肉的消耗”，例如“单轴手动跟踪任务”需持续操控摇杆，体力努力评分较高；“静态数据阅读任务”体力努力评分接近0。研究发现：在多数实验室与模拟任务中，体力努力的权重最低（表1-63），因实验任务多以脑力活动为主，但若任务涉及高强度体力操作（如重型设备控制），该维度会成为核心负荷来源。

7. FRUSTRATION LEVEL（挫折感水平）

维度	内容	解析
Title（量表名称）	挫折感水平	聚焦“任务带来的负面情绪体验”，是“主观负荷的情感表现”之一。
Endpoints（评分端点）	Fulfilled（满足）- Exasperated（恼怒）	锚定“情绪积极满足”到“情绪负面恼怒”的梯度，反映任务对情绪状态的影响。
Descriptions（说明）	“你感受到的不安、沮丧、烦躁、恼怒程度，与之相对的是安心、满足、满意、平静的程度”	核心是“任务与情绪的交互”——当任务难度过高（如频繁失败）、操作不顺畅（如设备延迟）时，挫折感会上升，进而放大主观负荷感受。数据特征：与压力水平（ST）高度相关（相关系数0.71，表1-67），但比压力更聚焦“任务相关的具体挫败”（如“操作失误导致任务失败”引发的挫折），而非泛化的焦虑。

8. STRESS LEVEL（压力水平）

维度	内容	解析
Title（量表名称）	压力水平	聚焦“任务带来的泛化焦虑体验”，是“主观负荷的心理表现”，涵盖更广泛的情绪与生理紧张感。
Endpoints（评分端点）	Relaxed（放松，原文“Relazed”为拼写误差，修正为“Relaxed”）- Tense（紧张）	锚定“身心放松”到“极度紧张”的梯度，反映整体心理紧张状态。
Descriptions（说明）	“你感受到的焦虑、担忧、紧张、困扰程度，与之相对的是平静、安详、平和、放松的程度”（修正原文“har- rased”为“harassed”，意为“困扰”）	核心是“泛化的心理紧张”，可能源于任务难度、时间压力、绩效担忧等多种因素（如“飞行模拟中突发故障”会同时提升时间压力与压力水平）。研究局限：因与其他维度（如挫折感、任务难度）高度相关（表1-67），信息重叠度高，最终在NASA-TLX定稿时被剔除，其核心信息被“挫折感”覆盖。

9. FATIGUE（疲劳感）

维度	内容	解析
Title（量表名称）	疲劳感	聚焦“任务引发的身心疲惫状态”，是“长时间任务中可能累积的负荷相关体验”。
Endpoints（评分端点）	Exhausted（疲惫，原文“Ezhausted”为拼写误差，修正为“Exhausted”）- Alert（警觉）	锚定“极度疲惫”到“精力充沛”的梯度，反映身心能量的消耗状态。
Descriptions（说明）	“你感受到的疲倦、疲惫、精疲力竭程度，与之相对的是精神饱满、精力充沛、充满活力的程度”	核心是“身心能量的消耗”，例如“连续5小时的POPCORN任务”会导致疲劳感上升，但短期任务（如10分钟的心算任务）疲劳感评分较低。研究结论：与主观工作负荷的关联性最弱（相关系数0.40，表1-67），因多数实验通过“平衡任务顺序”控制疲劳效应，且疲劳更多是“长时间任务的结果”，而非“即时负荷的核心成分”，最终未纳入NASA-TLX定稿。

10. ACTIVITY TYPE（活动类型）

维度	内容	解析
Title（量表名称）	活动类型	基于拉斯穆森（Rasmussen）的认知行为理论，聚焦“任务所需的认知加工水平”。
Endpoints（评分端点）	Skill Based（技能型）- Rule Based（规则型）- Knowledge Based（知识型）	三端点设计，反映认知加工的梯度：从“自动化反应”到“规则应用”再到“问题解决”。
Descriptions（说明）	“任务要求的认知行为水平：是对熟练常规的机械反应、对已知规则的应用，还是对问题的解决与决策”	核心是“认知加工深度”： - 技能型：如“熟练打字”，无需主动思考，依赖肌肉记忆； - 规则型：如“按手册操作设备”，需遵循既定规则； - 知识型：如“突发故障排查”，需创新决策与问题解决。研究发现：虽理论上“知识型任务负荷更高”，但实验数据显示其与整体负荷相关性极低（相关系数0.30，表1-67），因操作者可能通过策略调整（如简化决策）降低负荷，最终未纳入NASA-TLX定稿。

总结：量表设计的核心逻辑与后续优化

该10项量表是NASA-TLX的“雏形”，其设计逻辑是**“全面覆盖潜在负荷维度→通过实证筛选核心维度”**。后续通过数据分析（如相关性、回归分析），最终剔除“压力水平、疲劳感、活动类型”，并将“任务难度”拆分为“心理需求（MD）”与“体力需求（PD）”，“心理/感官努力”与“体力努力”合并为“努力程度（EF）”，形成NASA-TLX定稿的6项核心维度，既保证了对负荷的敏感性，又简化了操作流程，适用于更多实践场景。

四、关键研究结果

表 1a：总体数据中 9 项工作负荷相关因素权重的相关性矩阵.jpeg
表 1b：总体数据中原始双极评分与整体工作负荷（OW）的相关性矩阵
表 2a：9 项因素评分对整体工作负荷（OW）回归的 Beta 权重，* 表示 p<0.01，即统计显著
表 2b：各实验类别中，每项工作负荷因素对整体工作负荷（OW）评分变异的解释率

因素权重与评分特征
- 权重排序：时间压力（TP）最重要，其次是挫折感（FR）、压力（ST）、心理努力（ME）、任务难度（TD）；体力努力（PE）最不重要，疲劳感（FA）、活动类型（AT）也相对次要。
- 评分分布：TD、OP、ME、OW评分呈正态分布；TP、ST、FA、PE呈偏态分布（多数低评分，少数极高）；AT呈双峰分布（集中在“技能型-规则型”“规则型-知识型”之间）。
- 相关性：ME与TD相关性最高（0.76），ST与FR次之（0.71）；TD与OW相关性最高（0.83），ME与OW次之（0.73）。
不同任务类别的负荷特征（表2）

任务类别	核心负荷来源	关键发现
单一认知任务	ME、TD	PE评分极低，整体负荷低于平均水平，仅TD、ME与OW方差相关性超50%
单一手动控制任务	PE、ST、FR	FR、ST评分高于其他任务，TD、ME、ST与OW方差相关性超50%
双任务	TP、TD、ME	整体负荷高于单一任务及飞行模拟任务，TP对OW方差解释率超50%
FITTSBERG任务	TD、ME	任务组件串行执行，存在“并发节省”，整体负荷低，仅TD、ME与OW方差相关性超50%
POPCORN任务	TP、TD	TP为主要操纵变量，评分高，仅TD、TP与OW方差相关性超50%，整体负荷评分最高
飞行模拟任务	TD	受试者为持证飞行员，评分变异性最小，仅TD与OW方差相关性超50%

WWL的优势：与OW评分秩相关系数0.99，变异系数（0.39）显著低于OW（0.48），个体间差异平均减少20%，部分实验达46%，对实验操纵敏感性更高。

五、NASA-TLX量表构建与验证

量表维度筛选：从10个初始维度中筛选6个核心维度（表3），剔除ST（与其他维度高度相关）、FA（与工作负荷关联弱）、AT（对整体负荷预测贡献小），并调整部分维度（如拆分TD为MD、PD，合并ME、PE为EF）。
量表量化与实施
- 采用12厘米线段双极形容词锚定的图形量表，数据分析时赋值1-100，避免离散类别限制，提高敏感性。
- 受试者完成任务后，通过15次成对比较确定6个维度的权重，计算加权平均分作为整体工作负荷得分，操作耗时短（评分<1分钟，权重确定<2分钟）。
验证结果
- 13项实验任务的验证显示，受试者能明确不同任务的主要负荷来源，6个维度对OW评分方差解释率达78%-90%，且各维度相对独立。
- 不同实施方式（口头、纸笔、计算机）的评分模式一致性高（相关系数0.94-0.96），重测信度良好（相关系数0.83）。

量表名称	端点描述	核心含义
心理需求（MD）	低-高	所需心理和感知活动量，任务难易、复杂程度
体力需求（PD）	低-高	所需体力活动量，任务轻松/费力程度
时间需求（TD）	低-高	任务节奏带来的时间压力， pace缓慢/紧迫
自身绩效（OP）	好-差	完成任务目标的成功度与满意度
努力程度（EF）	低-高	为达成绩效所需的心理和体力努力程度
挫折感（FR）	低-高	不安、沮丧与安心、满足的感受程度

六、研究结论与应用价值

核心结论
- 工作负荷存在共性，但不同任务的具体成因不同； component评分比整体评分更具诊断性；任务相关负荷来源对主观体验的影响大于个体先验偏差；加权组合component评分能降低个体差异，稳定评估整体工作负荷。
- NASA-TLX量表比单一整体评分或仅基于个体先验偏差的加权评分更敏感，6个维度能独立提供任务结构信息，优于SWAT等其他量表。
应用价值
- 领域适配：适用于航空航天、人机交互、工业设计等领域，可评估飞行员、操作员等人群的工作负荷。
- 实践作用：能精准定位高负荷任务的核心成因，为任务优化（如调整时间压力、简化操作流程）提供依据，且实施便捷、数据分析简单，适合 operational环境应用。