【论文研读】NASA-TLX(任务负荷指数)研发报告总结
原文链接:Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research
本文围绕NASA-TLX(任务负荷指数)展开,通过多年实证与理论研究,明确主观工作负荷的影响因素,提出多维度评分量表,旨在为不同任务场景下的工作负荷评估提供科学、可靠的工具。
一、研究概述

- 研究背景:工作负荷虽定义存在争议,但在人机交互、航空航天等领域是关键可测指标。主观评分是常用评估方法,却面临个体差异大、负荷来源难定位的问题,亟需更科学的评估工具。
- 研究团队:由美国国家航空航天局艾姆斯研究中心的Sandra G. Hart与圣何塞州立大学的Lowell E. Staveland主导。
- 研究周期与核心目标:历经多年研究,旨在识别影响主观工作负荷的关键因素,明确其范围、锚点与区间值,开发多维度、高敏感性且低个体差异的工作负荷评分量表(NASA-TLX)。
- 数据基础:基于16项实验,涵盖简单认知任务、手动控制任务、复杂实验室任务、监控控制任务及飞行模拟等,收集247名受试者的3461条评分数据与权重数据。
二、理论框架与核心概念
- 工作负荷定义:是假设性构念,代表操作者为达成特定绩效水平的“成本”,具有人本性,由任务需求、执行环境与操作者技能、行为、感知交互形成,非任务固有属性。
- 三类关键概念区分
- 施加的工作负荷:操作者面临的情境,受任务目标、时长、结构及人/系统资源影响,还会因环境、系统故障等偶然因素变动。
- 系统响应:人-机系统的行为与成果,体现操作者策略、努力及系统特性,绩效反馈会影响操作者后续行为调整。
- 体验到的工作负荷与生理后果:任务对操作者的影响,主观体验是主观评分的核心,但易受先入为主观念影响,且未必涵盖所有相关因素。
- 主观评分特性
- 优势:最贴近心理工作负荷本质,能整合多类负荷影响因素,唯一反映任务对操作者主观影响。
- 局限:个体难量化、记忆短暂体验,可能含无关信息或遗漏关键信息,实验要求的量化评估非自然行为,易产生偏差。
三、研究方法

- 因素筛选与量表开发
- 先从19个因素中筛选出14个与工作负荷相关的核心因素,再开发10个双极评分量表(表1),涵盖整体工作负荷(OW)、任务难度(TD)等维度。
- 量表以12厘米线段呈现,无数字显示,数据分析时赋值1-100,用于评估25项研究,重点分析16项结果。
- 权重确定方法:采用成对比较法,让受试者对9个因素的36种配对组合选择与工作负荷更相关的因素,以选择次数作为因素在计算加权工作负荷分数(WWL)中的权重。
- 数据分类与分析
- 按任务类型将16项研究数据分为6类:单一认知任务、单一手动控制任务、双任务、FITTSBERG任务、POPCORN监控控制模拟任务、飞行模拟任务。
- 运用方差分析、相关分析、回归分析、非参数K-S检验等方法,分析量表敏感性、相关性及对整体工作负荷的预测能力。

| 量表名称 | 端点描述 | 核心含义 |
|---|---|---|
| 整体工作负荷(OW) | 低-高 | 综合所有来源和组成部分,任务的总体工作负荷 |
| 任务难度(TD) | 低-高 | 任务的难易程度,如简单/复杂、严苛/宽松 |
| 时间压力(TP) | 无-紧迫 | 任务元素发生节奏带来的压力,如缓慢从容/快速紧张 |
| 自身绩效(OP) | 失败-完美 | 对自身完成任务目标的成功度和满意度 |
| 心理/感官努力(ME) | 无-极高 | 所需的心理和感知活动量,如思考、记忆、搜索等 |
| 体力努力(PE) | 无-极高 | 所需的体力活动量,如推、拉、控制、激活等 |
| 挫折感(FR) | 满足-恼怒 | 内心的不安、沮丧、烦躁与安心、满足、平静的程度 |
| 压力水平(ST) | 放松-紧张 | 焦虑、担忧、紧张与平静、镇定、放松的程度 |
| 疲劳感(FA) | 疲惫-警觉 | 疲倦、劳累与精力充沛、活跃的程度 |
| 活动类型(AT) | 技能型-规则型-知识型 | 任务需机械反应、应用已知规则或问题解决的程度 |
该表格是NASA-TLX(任务负荷指数)研发阶段核心的10项双极主观评分量表,用于从不同维度量化评估任务给操作者带来的主观工作负荷。表格中部分“Descriptions”(说明)存在文本排版拆分或拼写误差,以下结合研究语境,从“量表定位、评分逻辑、核心含义”三方面逐行解析,同时修正表述并补充实践价值:
1. OVERALL WORKLOAD(整体工作负荷)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 整体工作负荷 | 量表的“全局总结性指标”,不区分具体负荷类型,聚焦任务带来的综合主观负担。 |
| Endpoints(评分端点) | Low(低)- High(高) | 采用双极形容词锚定,让操作者根据整体感受在“低负荷”到“高负荷”间选择,无中间具体数值(后续数据分析时赋值1-100)。 |
| Descriptions(说明) | “任务相关的总工作负荷,需综合所有来源及组成部分”(修正原文排版拆分) | 核心是“整合性”——需覆盖心理、体力、时间等所有负荷维度,而非单一因素。例如评估飞行任务时,需同时考虑操控难度、信息处理量、时间压力等,最终给出整体负荷判断。 实践价值:作为不同任务、不同难度水平间“整体负荷对比”的基准,是后续与其他细分维度(如任务难度、时间压力)关联分析的核心参考。 |
2. TASK DIFFICULTY(任务难度)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 任务难度 | 聚焦“任务本身的客观属性”,而非操作者的主观负担,是负荷的“潜在诱因”之一。 |
| Endpoints(评分端点) | Low(低)- High(高) | 锚定“简单”到“复杂”的难度梯度,反映任务要求的“固有复杂程度”。 |
| Descriptions(说明) | “任务的难易程度:是简单还是复杂、要求严苛还是容错性高”(修正原文“ing”“demand-”等排版拆分) | 核心是“任务客观要求的复杂程度”,如操作步骤数量、规则复杂度、容错率(例如“简单数据录入”难度低,“多参数飞行调控”难度高)。 关键区分:与“整体工作负荷”不同——难度高的任务未必负荷高(如熟练飞行员应对复杂任务时,因技能娴熟,主观负荷可能低于新手应对简单任务)。 |
3. TIME PRESSURE(时间压力)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 时间压力 | 聚焦“时间维度对负荷的影响”,是动态任务(如监控、驾驶)中核心的负荷来源。 |
| Endpoints(评分端点) | None(无)- Rushed(紧迫) | 锚定“无时间压力”到“极度紧迫”的感受,反映任务节奏的主观体验。 |
| Descriptions(说明) | “因任务元素发生的节奏而感受到的压力:任务是缓慢从容还是快速紧张”(修正原文“occured”“the rate at which…”等排版拆分) | 核心是“任务节奏的主观感知”,例如“任务元素出现速度快(如每2秒需处理1条信息)”“操作有严格时限(如10秒内必须完成决策)”都会提升时间压力。 实践场景:是POPCORN任务(监控控制模拟)的主要操纵变量——通过调整任务元素移动速度、组间间隔时间,直接改变操作者的时间压力,进而观察负荷变化。 |
4. PERFORMANCE(自身绩效)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 自身绩效 | 聚焦“操作者对自身任务完成情况的主观判断”,是“负荷→绩效→负荷”反馈链的关键环节。 |
| Endpoints(评分端点) | Failure(失败)- Perfect(完美) | 锚定“未达成目标”到“完全达成目标”的主观评价,同时隐含对成果的满意度。 |
| Descriptions(说明) | “你认为自己完成要求任务的成功程度,以及对所达成成果的满意程度” | 核心是“绩效反馈的主观感知”——虽不直接衡量“负荷”,但与负荷高度相关:负荷过高易导致绩效下降,而绩效不佳(如频繁出错)又会反过来增加心理负担,提升主观负荷。 数据价值:用于分析“负荷与绩效的交互关系”,例如判断某任务是否因负荷过高导致绩效显著下降。 |
5. MENTAL/SENSORY EFFORT(心理/感官努力)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 心理/感官努力 | 聚焦“认知与感知层面的主观投入”,是脑力密集型任务(如计算、记忆)的核心负荷维度。 |
| Endpoints(评分端点) | None(无)- Impossible(极高,原文“_¥one”为输入误差,修正为“None”;“Impossible”字面为“不可能”,结合语境译为“极高”,表示努力程度趋近极限) | 锚定“无需心理投入”到“需极致心理努力”的梯度,反映认知活动的强度。 |
| Descriptions(说明) | “完成任务所需的心理和/或感知活动量(如思考、决策、计算、记忆、观察、搜索等)”(修正原文排版拆分) | 核心是“认知资源的消耗”,覆盖“信息处理”(如计算)、“记忆提取”(如回忆规则)、“感官识别”(如搜索目标)等环节。 典型场景:在单一认知任务(如 mental arithmetic 心算、Sternberg 记忆搜索)中,该维度评分与整体负荷高度相关(相关系数0.72,表1-124),是此类任务的核心负荷指标。 |
6. PHYSICAL EFFORT(体力努力)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 体力努力 | 聚焦“身体活动层面的主观投入”,是体力密集型任务(如手动控制、操作设备)的负荷维度。 |
| Endpoints(评分端点) | None(无)- Impossible(极高,原文“]_'onej”为输入误差,修正为“None”;“Impossible”译为“极高”,同上文) | 锚定“无需体力投入”到“需极致体力努力”的梯度,反映身体活动的强度。 |
| Descriptions(说明) | “完成任务所需的体力活动量(如推、拉、转动、控制、启动等)” | 核心是“身体肌肉的消耗”,例如“单轴手动跟踪任务”需持续操控摇杆,体力努力评分较高;“静态数据阅读任务”体力努力评分接近0。 研究发现:在多数实验室与模拟任务中,体力努力的权重最低(表1-63),因实验任务多以脑力活动为主,但若任务涉及高强度体力操作(如重型设备控制),该维度会成为核心负荷来源。 |
7. FRUSTRATION LEVEL(挫折感水平)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 挫折感水平 | 聚焦“任务带来的负面情绪体验”,是“主观负荷的情感表现”之一。 |
| Endpoints(评分端点) | Fulfilled(满足)- Exasperated(恼怒) | 锚定“情绪积极满足”到“情绪负面恼怒”的梯度,反映任务对情绪状态的影响。 |
| Descriptions(说明) | “你感受到的不安、沮丧、烦躁、恼怒程度,与之相对的是安心、满足、满意、平静的程度” | 核心是“任务与情绪的交互”——当任务难度过高(如频繁失败)、操作不顺畅(如设备延迟)时,挫折感会上升,进而放大主观负荷感受。 数据特征:与压力水平(ST)高度相关(相关系数0.71,表1-67),但比压力更聚焦“任务相关的具体挫败”(如“操作失误导致任务失败”引发的挫折),而非泛化的焦虑。 |
8. STRESS LEVEL(压力水平)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 压力水平 | 聚焦“任务带来的泛化焦虑体验”,是“主观负荷的心理表现”,涵盖更广泛的情绪与生理紧张感。 |
| Endpoints(评分端点) | Relaxed(放松,原文“Relazed”为拼写误差,修正为“Relaxed”)- Tense(紧张) | 锚定“身心放松”到“极度紧张”的梯度,反映整体心理紧张状态。 |
| Descriptions(说明) | “你感受到的焦虑、担忧、紧张、困扰程度,与之相对的是平静、安详、平和、放松的程度”(修正原文“har- rased”为“harassed”,意为“困扰”) | 核心是“泛化的心理紧张”,可能源于任务难度、时间压力、绩效担忧等多种因素(如“飞行模拟中突发故障”会同时提升时间压力与压力水平)。 研究局限:因与其他维度(如挫折感、任务难度)高度相关(表1-67),信息重叠度高,最终在NASA-TLX定稿时被剔除,其核心信息被“挫折感”覆盖。 |
9. FATIGUE(疲劳感)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 疲劳感 | 聚焦“任务引发的身心疲惫状态”,是“长时间任务中可能累积的负荷相关体验”。 |
| Endpoints(评分端点) | Exhausted(疲惫,原文“Ezhausted”为拼写误差,修正为“Exhausted”)- Alert(警觉) | 锚定“极度疲惫”到“精力充沛”的梯度,反映身心能量的消耗状态。 |
| Descriptions(说明) | “你感受到的疲倦、疲惫、精疲力竭程度,与之相对的是精神饱满、精力充沛、充满活力的程度” | 核心是“身心能量的消耗”,例如“连续5小时的POPCORN任务”会导致疲劳感上升,但短期任务(如10分钟的心算任务)疲劳感评分较低。 研究结论:与主观工作负荷的关联性最弱(相关系数0.40,表1-67),因多数实验通过“平衡任务顺序”控制疲劳效应,且疲劳更多是“长时间任务的结果”,而非“即时负荷的核心成分”,最终未纳入NASA-TLX定稿。 |
10. ACTIVITY TYPE(活动类型)
| 维度 | 内容 | 解析 |
|---|---|---|
| Title(量表名称) | 活动类型 | 基于拉斯穆森(Rasmussen)的认知行为理论,聚焦“任务所需的认知加工水平”。 |
| Endpoints(评分端点) | Skill Based(技能型)- Rule Based(规则型)- Knowledge Based(知识型) | 三端点设计,反映认知加工的梯度:从“自动化反应”到“规则应用”再到“问题解决”。 |
| Descriptions(说明) | “任务要求的认知行为水平:是对熟练常规的机械反应、对已知规则的应用,还是对问题的解决与决策” | 核心是“认知加工深度”: - 技能型:如“熟练打字”,无需主动思考,依赖肌肉记忆; - 规则型:如“按手册操作设备”,需遵循既定规则; - 知识型:如“突发故障排查”,需创新决策与问题解决。 研究发现:虽理论上“知识型任务负荷更高”,但实验数据显示其与整体负荷相关性极低(相关系数0.30,表1-67),因操作者可能通过策略调整(如简化决策)降低负荷,最终未纳入NASA-TLX定稿。 |
总结:量表设计的核心逻辑与后续优化
该10项量表是NASA-TLX的“雏形”,其设计逻辑是**“全面覆盖潜在负荷维度→通过实证筛选核心维度”**。后续通过数据分析(如相关性、回归分析),最终剔除“压力水平、疲劳感、活动类型”,并将“任务难度”拆分为“心理需求(MD)”与“体力需求(PD)”,“心理/感官努力”与“体力努力”合并为“努力程度(EF)”,形成NASA-TLX定稿的6项核心维度,既保证了对负荷的敏感性,又简化了操作流程,适用于更多实践场景。
四、关键研究结果




- 因素权重与评分特征
- 权重排序:时间压力(TP)最重要,其次是挫折感(FR)、压力(ST)、心理努力(ME)、任务难度(TD);体力努力(PE)最不重要,疲劳感(FA)、活动类型(AT)也相对次要。
- 评分分布:TD、OP、ME、OW评分呈正态分布;TP、ST、FA、PE呈偏态分布(多数低评分,少数极高);AT呈双峰分布(集中在“技能型-规则型”“规则型-知识型”之间)。
- 相关性:ME与TD相关性最高(0.76),ST与FR次之(0.71);TD与OW相关性最高(0.83),ME与OW次之(0.73)。
- 不同任务类别的负荷特征(表2)
| 任务类别 | 核心负荷来源 | 关键发现 |
|---|---|---|
| 单一认知任务 | ME、TD | PE评分极低,整体负荷低于平均水平,仅TD、ME与OW方差相关性超50% |
| 单一手动控制任务 | PE、ST、FR | FR、ST评分高于其他任务,TD、ME、ST与OW方差相关性超50% |
| 双任务 | TP、TD、ME | 整体负荷高于单一任务及飞行模拟任务,TP对OW方差解释率超50% |
| FITTSBERG任务 | TD、ME | 任务组件串行执行,存在“并发节省”,整体负荷低,仅TD、ME与OW方差相关性超50% |
| POPCORN任务 | TP、TD | TP为主要操纵变量,评分高,仅TD、TP与OW方差相关性超50%,整体负荷评分最高 |
| 飞行模拟任务 | TD | 受试者为持证飞行员,评分变异性最小,仅TD与OW方差相关性超50% |
- WWL的优势:与OW评分秩相关系数0.99,变异系数(0.39)显著低于OW(0.48),个体间差异平均减少20%,部分实验达46%,对实验操纵敏感性更高。
五、NASA-TLX量表构建与验证
- 量表维度筛选:从10个初始维度中筛选6个核心维度(表3),剔除ST(与其他维度高度相关)、FA(与工作负荷关联弱)、AT(对整体负荷预测贡献小),并调整部分维度(如拆分TD为MD、PD,合并ME、PE为EF)。
- 量表量化与实施
- 采用12厘米线段双极形容词锚定的图形量表,数据分析时赋值1-100,避免离散类别限制,提高敏感性。
- 受试者完成任务后,通过15次成对比较确定6个维度的权重,计算加权平均分作为整体工作负荷得分,操作耗时短(评分<1分钟,权重确定<2分钟)。
- 验证结果
- 13项实验任务的验证显示,受试者能明确不同任务的主要负荷来源,6个维度对OW评分方差解释率达78%-90%,且各维度相对独立。
- 不同实施方式(口头、纸笔、计算机)的评分模式一致性高(相关系数0.94-0.96),重测信度良好(相关系数0.83)。
| 量表名称 | 端点描述 | 核心含义 |
|---|---|---|
| 心理需求(MD) | 低-高 | 所需心理和感知活动量,任务难易、复杂程度 |
| 体力需求(PD) | 低-高 | 所需体力活动量,任务轻松/费力程度 |
| 时间需求(TD) | 低-高 | 任务节奏带来的时间压力, pace缓慢/紧迫 |
| 自身绩效(OP) | 好-差 | 完成任务目标的成功度与满意度 |
| 努力程度(EF) | 低-高 | 为达成绩效所需的心理和体力努力程度 |
| 挫折感(FR) | 低-高 | 不安、沮丧与安心、满足的感受程度 |
六、研究结论与应用价值
- 核心结论
- 工作负荷存在共性,但不同任务的具体成因不同; component评分比整体评分更具诊断性;任务相关负荷来源对主观体验的影响大于个体先验偏差;加权组合component评分能降低个体差异,稳定评估整体工作负荷。
- NASA-TLX量表比单一整体评分或仅基于个体先验偏差的加权评分更敏感,6个维度能独立提供任务结构信息,优于SWAT等其他量表。
- 应用价值
- 领域适配:适用于航空航天、人机交互、工业设计等领域,可评估飞行员、操作员等人群的工作负荷。
- 实践作用:能精准定位高负荷任务的核心成因,为任务优化(如调整时间压力、简化操作流程)提供依据,且实施便捷、数据分析简单,适合 operational环境应用。
七、附录要点(示例)
以两项离散响应任务(ISI分别为500ms和300ms)为例,通过成对比较确定各维度权重,再结合各维度评分计算WWL得分,结果显示时间需求(TD)是两项任务负荷差异的核心来源,WWL得分能反映各因素重要性及主观强度。
