当前位置：首页 > news >正文

大模型评测与可解释性

news 2025/9/16 6:14:05

随着大模型在各个领域展现出惊人的能力，我们对其性能的评估和对其决策过程的理解变得尤为重要。一个模型即使在基准测试中表现出色，也可能在实际应用中遇到意想不到的问题。同时，由于大模型的复杂性，它们常常被视为“黑箱”，这给其在关键领域的应用带来了挑战。

本章将深入探讨大模型效果评估的多维度方法，以及大模型可解释性（Explainable AI, XAI）的核心概念、技术和实践工具，帮助我们更全面地理解和信任AI。

5.1 大模型效果评估：多维度衡量性能

评估大模型的性能远不止一个单一的准确率指标那么简单。我们需要从多个维度进行衡量，以全面了解模型的能力、局限性及其在实际应用中的表现。

5.1.1 通用任务评估指标

不同类型的大模型在不同任务上有着各自的评估指标。

5.1.1.1 自然语言处理 (NLP) 任务

对于文本生成、文本分类、问答等NLP任务，常用的指标包括：

困惑度 (Perplexity, PPL)： 主要用于评估语言模型的流畅性和生成文本的质量。困惑度越低，表示模型对文本的预测能力越强，生成的文本越自然。
BLEU (Bilingual Evaluation Understudy)： 用于评估机器翻译或文本摘要等生成任务的质量。它衡量生成文本与参考文本（人工翻译/摘要）之间N-gram重叠的程度。值越高表示越好。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)： 同样用于文本摘要和翻译，但更侧重于召回率，衡量生成文本包含了多少参考文本中的信息。分为ROUGE-N（N-gram重叠）、ROUGE-L（最长公共子序列）和ROUGE-S（跳跃二元组）。
METEOR (Metric for Evaluation of Translation with Explicit Ordering)： 结合了精确率和召回率，并考虑了词干、同义词和短语对齐等，比BLEU更灵活。
BERTScore： 基于预训练的BERT模型计算生成文本与参考文本的语义相似度，而非简单的N-gram重叠，更能反映语义层面的质量。
准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall)、F1-score： 这些是分类任务的通用指标，尤其适用于文本分类、情感分析等。
- 准确率： 正确预测的样本占总样本的比例。
- 精确率： 预测为正例的样本中，真正为正例的比例。
- 召回率： 真正为正例的样本中，被模型正确预测为正例的比例。
- F1-score： 精确率和召回率的调和平均值，在两者之间取得平衡。
人类评估 (Human Evaluation)： 这是衡量文本生成质量的“黄金标准”，通过人类评分员对生成文本的流畅性、连贯性、信息量、事实准确性等进行主观评价。

5.1.1.2 计算机视觉 (CV) 任务

对于图像分类、目标检测、图像生成等CV任务，常用指标包括：

准确率 (Accuracy)： 图像分类任务的基本指标。
平均精确率 (mAP, Mean Average Precision)： 目标检测任务的核心指标，衡量在不同召回率阈值下的平均精确率。
交并比 (IoU, Intersection over Union)： 衡量目标检测或图像分割中预测框/掩码与真实框/掩码之间的重叠程度。
FID (Fréchet Inception Distance)： 用于评估图像生成模型的质量，衡量生成图像的分布与真实图像分布之间的相似度。FID值越低越好。
IS (Inception Score)： 同样用于评估图像生成模型，通过Inception-v3模型对生成图像进行分类，衡量图像的清晰度和多样性。IS值越高越好。
PSNR (Peak Signal-to-Noise Ratio) / SSIM (Structural Similarity Index Measure)： 用于图像超分辨率、去噪等图像恢复任务，衡量图像质量。

5.1.1.3 多模态任务

对于视觉问答（VQA）、图像字幕生成、跨模态检索等任务，评估通常结合不同模态的指标：

VQA Accuracy： 直接回答问题的准确率。
Retrieval Recall@K： 在跨模态检索（如给定文本找图片，或给定图片找文本）中，衡量在返回的前K个结果中包含正确匹配项的比例。
Flicker30k / COCO Captioning Metrics： 结合BLEU、ROUGE、CIDEr等语言模型指标，评估图像字幕生成质量。
人类评估： 对于多模态任务，人类评估同样不可或缺，因为它能捕捉到模型在理解和融合多模态信息方面的微妙之处。

5.1.2 零样本 / 少样本评估

大模型一个显著的优势是其零样本（Zero-shot） 和少样本（Few-shot） 能力。评估这些能力对于衡量模型的通用性和泛化能力至关重要。

零样本： 在不进行任何特定任务微调的情况下，直接让模型执行任务。例如，给CLIP一个图像，以及一组未见过的类别名称，让它直接分类。
少样本： 只提供极少量（例如1到5个）的示例，让模型学习并执行任务。例如，给GPT-3几个问答对，然后让它回答新的问题。

这些评估方法通常通过构建特定的基准测试集来完成，例如BIG-bench for LLMs，或通过Prompt Engineering来引导模型。

5.1.3 鲁棒性与公平性评估

鲁棒性 (Robustness)： 评估模型在面对输入噪声、对抗性攻击、数据漂移或分布外数据时的性能。例如，对图片添加微小扰动后，模型是否仍然能正确分类。
公平性 (Fairness)： 评估模型在处理不同人群（例如，不同种族、性别、年龄等）数据时是否存在偏见或歧视。这通常通过计算模型在不同敏感属性子集上的性能差异来衡量。

评估工具： Hugging Face Evaluate库为NLP、CV等任务提供了丰富的评估指标实现。对于公平性评估，有如AIF360、Fairlearn等工具。

5.2 大模型可解释性 (XAI)：揭开“黑箱”的神秘面纱

随着AI模型变得越来越复杂，它们通常被称为“黑箱”，即我们知道它们能做什么，但不知道它们是如何做出决策的。可解释人工智能（Explainable AI, XAI） 旨在提供方法和工具，帮助我们理解AI模型的工作原理、决策依据，从而增强信任、促进调试和确保公平性。

5.2.1 为什么需要可解释性？

信任与接受： 在医疗、金融、法律等高风险领域，用户需要理解AI决策的理由才能信任并采纳。
调试与改进： 当模型表现不佳时，可解释性可以帮助开发者找到问题根源，进行针对性改进。
公平性与偏见检测： 可解释性工具能揭示模型是否基于非预期或带有偏见的特征进行决策，有助于发现并消除歧视。
安全与鲁棒性： 理解模型的决策边界和漏洞，有助于构建更安全的系统。
科学发现： 从模型学到的决策规则中发现新的知识和规律。

5.2.2 模型内部可解释性：理解模型组件

这类方法通常直接分析模型内部的结构和参数。

5.2.2.1 注意力可视化 (Attention Visualization)

核心思想： 对于Transformer架构的大模型，注意力机制是其核心。通过可视化注意力权重，我们可以看到模型在处理输入序列时，哪些部分对当前输出的形成贡献最大。

原理详解： Transformer模型中的自注意力层计算查询（Query）、键（Key）、值（Value）之间的相似度，并用这个相似度作为权重来加权求和值向量。这些注意力权重可以直接用于可视化。

在NLP中： 可以显示模型在生成一个词时，对输入句子中哪些词给予了更多的“关注”。
在CV中（如ViT）： 可以显示模型在处理某个图像块时，对图像中其他哪些图像块进行了“关注”，从而理解其全局感受野。

Python示例：可视化BERT的注意力权重

Python

import torch
from transformers import AutoTokenizer, AutoModel
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np# 1. 加载预训练的BERT模型和分词器
tokenizer_attn = AutoTokenizer.from_pretrained("bert-base-uncased")
model_attn = AutoModel.from_pretrained("bert-base-uncased", output_attentions=True) # 确保输出注意力权重
model_attn.eval() # 推理模式# 2. 准备输入文本
text_attn = "The cat sat on the mat."
inputs_attn = tokenizer_attn(text_attn, return_tensors="pt", add_special_tokens=True)
tokens_attn = tokenizer_attn.convert_ids_to_tokens(inputs_attn["input_ids"][0])# 3. 进行推理并获取注意力权重
with torch.no_grad():outputs_attn = model_attn(**inputs_attn)attentions = outputs_attn.attentions # 这是一个元组，每个元素对应一个Transformer层的注意力权重# 4. 可视化注意力权重 (以最后一层的第一个头为例)
# attentions[layer_idx][batch_idx, head_idx, query_len, key_len]
layer_idx = -1 # 最后一层
head_idx = 0   # 第一个注意力头attn_weights = attentions[layer_idx][0, head_idx].cpu().numpy() # (seq_len, seq_len)print("\n--- BERT 注意力可视化示例 ---")
print(f"Text: '{text_attn}'")
print(f"Tokens: {tokens_attn}")
print(f"Attention weights shape for layer {layer_idx}, head {head_idx}: {attn_weights.shape}")# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(attn_weights, xticklabels=tokens_attn, yticklabels=tokens_attn, cmap="viridis", annot=True, fmt=".2f", linewidths=.5)
plt.title(f"Attention Weights (Layer {layer_idx}, Head {head_idx})")
plt.xlabel("Key Tokens")
plt.ylabel("Query Tokens")
plt.tight_layout()
plt.show()# 示例：平均所有头的注意力 (更通用)
avg_attn_weights = attentions[layer_idx][0].mean(dim=0).cpu().numpy() # (seq_len, seq_len)plt.figure(figsize=(8, 6))
sns.heatmap(avg_attn_weights, xticklabels=tokens_attn, yticklabels=tokens_attn, cmap="viridis", annot=True, fmt=".2f", linewidths=.5)
plt.title(f"Average Attention Weights (Layer {layer_idx}, All Heads)")
plt.xlabel("Key Tokens")
plt.ylabel("Query Tokens")
plt.tight_layout()
plt.show()

代码说明：

AutoModel.from_pretrained(..., output_attentions=True)：加载模型时确保设置output_attentions=True，以便获取注意力权重。
outputs_attn.attentions：包含了每一层所有注意力头的权重。
我们选择了最后一层和第一个头的注意力权重进行可视化。热力图显示了每个查询token对每个键token的关注程度。对角线通常是高亮，表示关注自身；其他高亮区域则表示模型在处理特定词时，关注了其他哪些词。

5.2.2.2 特征可视化 (Feature Visualization)

核心思想： 通过生成输入图像来最大化模型中特定神经元或特定层的激活，从而理解这些神经元或层所学习到的特征模式。

原理详解： 这通常涉及到优化问题：给定一个预训练模型，我们要找到一个输入 x，使得特定层 L 的某个神经元 n 的激活值 a_L,n(x) 达到最大。通过梯度上升等优化方法，我们可以迭代地调整 x 来实现这一目标。

卷积核可视化： 对于CNN，可以可视化每个卷积核学到的纹理、边缘等低级特征。
深度特征可视化： 对于更深层的神经元，它们可能学习到更高级的语义概念，如“狗的脸”、“汽车的车轮”等。

Python示例：概念性特征可视化（通过梯度上升）

这部分需要更复杂的图像处理和优化代码，通常使用lucid、captum等库。这里提供一个非常简化的概念性框架，不直接运行，但说明了原理。

Python

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import models, transforms
from PIL import Image
import matplotlib.pyplot as plt# 1. 加载预训练的图像分类模型
model_feat_vis = models.resnet18(pretrained=True)
model_feat_vis.eval() # 推理模式
for param in model_feat_vis.parameters():param.requires_grad = False # 冻结模型参数# 2. 选择一个需要解释的层和神经元
# 例如，选择最后一层全连接层的一个神经元
target_layer = model_feat_vis.fc
target_neuron_idx = 0 # 假设我们要看第一个输出神经元（对应第一个类别）# 3. 初始化一个随机输入图像（可学习的参数）
# 大小为 (1, C, H, W)
input_image = torch.randn(1, 3, 224, 224, requires_grad=True, device='cuda' if torch.cuda.is_available() else 'cpu')# 4. 定义优化器
optimizer_feat_vis = optim.Adam([input_image], lr=0.1)print("\n--- 特征可视化概念示例 ---")
print("通过梯度上升优化输入图像，使其最大化特定神经元激活。")# 5. 优化循环（简化，实际会更复杂）
# try:
#     for i in range(200): # 迭代200次
#         optimizer_feat_vis.zero_grad()
#         
#         # 获取目标神经元的激活
#         # 需要一个钩子（hook）来捕获中间层激活，这里简化为直接在FC层计算
#         # 更严谨的做法是在目标层添加 forward hook
#         
#         # 为了演示，直接让模型输出并取目标神经元的激活
#         # 实际中会更复杂，需要深入到特定层的特定神经元
#         
#         # 示例：通过获取目标神经元在正向传播中的激活
#         output = model_feat_vis(input_image)
#         activation = output[0, target_neuron_idx] # 取目标神经元的激活值
#         
#         # 最大化激活值，所以是负号
#         loss = -activation
#         
#         loss.backward()
#         optimizer_feat_vis.step()
#         
#         if i % 50 == 0:
#             print(f"Iteration {i}, Activation: {-loss.item():.4f}")
#             
#     # 可视化结果
#     optimized_image = input_image.squeeze(0).permute(1, 2, 0).cpu().detach().numpy()
#     optimized_image = (optimized_image - optimized_image.min()) / (optimized_image.max() - optimized_image.min()) # 归一化到0-1
#     plt.imshow(optimized_image)
#     plt.title(f"Image Maximizing Neuron {target_neuron_idx} Activation")
#     plt.axis('off')
#     plt.show()
#     print("Feature visualization completed.")
# except Exception as e:
#     print(f"Skipping feature visualization due to complexity/resource constraints. Error: {e}")print("（代码已注释，因为其复杂性超出了直接运行的简易示例范围。实际请使用`lucid`或`captum`等库。）")

代码说明：

该示例展示了通过梯度上升来优化输入图像，以最大化特定神经元的激活。
实际操作中，会使用更专业的XAI库，如Google的lucid或PyTorch生态的Captum，它们提供了更健壮和易用的API来实现特征可视化。

5.2.3 模型外部可解释性：理解决策过程

这类方法不深入模型的内部结构，而是通过观察模型的输入和输出关系来推断其决策依据。它们通常是模型无关的（model-agnostic），可以应用于任何“黑箱”模型。

5.2.3.1 LIME (Local Interpretable Model-agnostic Explanations)

核心思想： LIME通过在局部（即围绕某个特定输入样本）拟合一个简单可解释模型（如线性模型或决策树）来解释“黑箱”模型的预测。

原理详解：

选择一个待解释的样本。
生成扰动样本： 在该样本周围创建一系列稍微修改过的“邻近”样本。对于图像，这可能意味着关闭一些超像素；对于文本，可能意味着删除或替换一些词。
使用黑箱模型预测： 对这些扰动样本，用黑箱模型进行预测，得到它们的预测结果。
计算权重： 根据扰动样本与原始样本的相似度，给它们分配权重（距离越近，权重越大）。
训练可解释模型： 使用扰动样本的预测结果和权重，训练一个简单（局部可解释）的模型（如线性回归），来解释黑箱模型的局部行为。
解释输出： 简单模型的权重（或规则）可以指示输入特征中哪些部分对黑箱模型的预测贡献最大。

Python示例：概念性LIME（文本情感分析）

Python

import torch
from transformers import pipeline
import lime
import lime.lime_text
import numpy as np# 1. 加载一个预训练的文本分类模型 (作为黑箱模型)
# 使用Hugging Face pipeline简化
classifier = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")# 2. 定义LIME解释器
# class_names: 模型可能输出的类别名称
# feature_names: 文本特征，这里是词汇
# kernel_width: 影响扰动样本权重的核函数宽度
explainer = lime.lime_text.LimeTextExplainer(class_names=['1 star', '2 stars', '3 stars', '4 stars', '5 stars'],split_expression=r'\W+', # 简单的词分割bow=False, # 不是Bag-of-Words模型mask_string='UNK' # 替换词汇时使用的字符串
)# 3. 定义黑箱模型的预测函数 (LIME需要一个返回概率的函数)
def classifier_fn(texts):results = classifier(texts)# 将结果转换为LIME期望的概率格式 (num_samples, num_classes)# nlptown模型输出 [{'label': '5 stars', 'score': 0.99}]# 需要将其映射到对应的类别索引并返回概率数组# 类别顺序需要和explainer.class_names一致class_map = {'1 star': 0, '2 stars': 1, '3 stars': 2, '4 stars': 3, '5 stars': 4}probs = np.zeros((len(texts), len(explainer.class_names)))for i, res in enumerate(results):label_idx = class_map[res['label']]# 因为nlptown模型只给出了预测类别的score，没有其他类别的score# 简单处理：将预测类别的score设为高值，其他设为低值（不严谨，但用于演示）# 实际情况应使用模型的softmax输出# 这里模拟一个 softmax 后的概率分布probs[i, label_idx] = res['score']# 为了让其他类别也有非零概率，避免log(0)# 实际模型会输出所有类别的logits，然后可以做softmaxprobs[i, :] = probs[i, :] / np.sum(probs[i, :]) probs[i, :] = np.clip(probs[i, :], 1e-6, 1.0) # 避免零概率return probs# 4. 选择一个待解释的样本
text_to_explain = "This movie was absolutely fantastic! I loved every moment of it."print("\n--- LIME 文本情感分析示例 ---")
print(f"解释文本: '{text_to_explain}'")# 5. 生成解释
# num_features: 解释中显示多少个重要的特征词
# num_samples: 生成多少个扰动样本
explanation = explainer.explain_instance(text_to_explain, classifier_fn, num_features=5, num_samples=1000 # 生成1000个扰动样本
)# 打印解释结果
print("\nLIME解释结果 (词语对预测的贡献):")
# 解释显示每个词对预测特定类别的贡献（权重）
for label_idx in range(len(explainer.class_names)):print(f"\n--- 解释目标: {explainer.class_names[label_idx]} ---")local_exp = explanation.as_list(label=label_idx)for word, weight in local_exp:print(f"  Word: '{word}', Weight: {weight:.4f}")# 可视化解释（需要HTML输出或Jupyter Notebook）
# explanation.show_in_notebook(text=True) # 在Jupyter Notebook中显示# 也可以打印所有词对预测结果的贡献
# explanation.as_list() 默认返回模型原始预测结果的解释
print("\n--- 原始预测结果的解释 ---")
original_prediction = classifier(text_to_explain)[0]['label']
print(f"原始模型预测: {original_prediction}")
for word, weight in explanation.as_list():print(f"  Word: '{word}', Weight: {weight:.4f}")

代码说明：

我们使用Hugging Face pipeline加载一个情感分析模型作为黑箱。
lime.lime_text.LimeTextExplainer是LIME文本解释器。
classifier_fn是一个关键的适配器函数，它将LIME生成的扰动文本作为输入，并调用黑箱模型进行预测，然后将预测结果转换为LIME期望的概率格式。
explainer.explain_instance() 生成解释，它会显示哪些词语对模型的预测（以及对其他类别的预测）起到了正向或负向作用。

5.2.3.2 SHAP (SHapley Additive exPlanations)

核心思想： SHAP基于合作博弈论中的Shapley值，为每个特征分配一个“贡献值”，表示该特征对模型预测的贡献。它能够为任何模型提供一致且精确的特征贡献。

原理详解： Shapley值是一个公平分配合作博弈中总收益的方法。在XAI中，特征就是“玩家”，模型的预测就是“收益”。SHAP值计算某个特征在所有可能的特征组合（“联盟”）中的平均边际贡献。

优点：

全局和局部解释： 既能解释单个预测（局部），也能解释整个模型行为（全局）。
一致性： 保证公平地分配贡献，满足一些 desirable properties（如一致性、效率、对称性、哑变量等）。
模型无关性： 可以应用于任何机器学习模型。

Python示例：概念性SHAP（文本情感分析）

SHAP库也提供了与LIME类似的接口。这里我们继续使用文本情感分析的例子，但会用更通用的shap.Explainer。

Python

import torch
from transformers import pipeline
import shap
import numpy as np# 1. 加载一个预训练的文本分类模型 (作为黑箱模型)
classifier_shap = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")# 2. 定义黑箱模型的预测函数 (SHAP需要一个返回概率的函数)
def classifier_fn_shap(texts):results = classifier_shap(list(texts)) # SHAP可能传入numpy array，需要转回listclass_map = {'1 star': 0, '2 stars': 1, '3 stars': 2, '4 stars': 3, '5 stars': 4}probs = np.zeros((len(texts), len(class_map)))for i, res in enumerate(results):label_idx = class_map[res['label']]probs[i, label_idx] = res['score']probs[i, :] = probs[i, :] / np.sum(probs[i, :]) # 归一化probs[i, :] = np.clip(probs[i, :], 1e-6, 1.0) # 避免零概率return probs# 3. 准备背景数据 (用于SHAP的KernelExplainer)
# 对于文本，背景数据通常是训练集中的一些样本，或者是一些基准词
# 这里简化为一些基准词
background_text = ["This is good.", "This is bad."]
# Tokenize background text to get token IDs
tokenizer_shap = classifier_shap.tokenizer
background_tokens = tokenizer_shap(background_text, return_tensors="pt", padding=True, truncation=True)# 4. 初始化SHAP解释器
# KernelExplainer适合任何模型，但对于大型模型可能计算量大
# 这里我们使用一个简单的文本处理版本来演示
explainer_shap = shap.Explainer(classifier_fn_shap, tokenizer_shap(background_text, padding=True, truncation=True).input_ids.cpu().numpy() # 背景数据
)# 5. 选择一个待解释的样本
text_to_explain_shap = "This movie was absolutely fantastic! I loved every moment of it."
# 转换为模型输入的token IDs
inputs_to_explain = tokenizer_shap(text_to_explain_shap, return_tensors="pt").input_ids.cpu().numpy()print("\n--- SHAP 文本情感分析示例 ---")
print(f"解释文本: '{text_to_explain_shap}'")# 6. 计算SHAP值
# 这里的`0`表示解释第一个样本的预测
# SHAP会返回一个Explanation对象，其中包含shap_values, data, base_values等
shap_values_obj = explainer_shap(inputs_to_explain)# 7. 可视化SHAP值
# 需要将token IDs映射回实际的词语
word_list_shap = tokenizer_shap.convert_ids_to_tokens(inputs_to_explain[0])# SHAP可视化通常在Jupyter Notebook中效果最佳
# shap.plots.text(shap_values_obj[0], display=True) # 可以直接显示文本解释
# 或者手动绘制
print("\nSHAP解释结果 (词语对预测的贡献):")
# shap_values_obj.values 结构是 (num_samples, seq_len, num_classes)
# 取第一个样本，取预测类别的shap值
predicted_class_idx = np.argmax(classifier_fn_shap([text_to_explain_shap])[0])
predicted_class_name = classifier_shap(text_to_explain_shap)[0]['label']
print(f"模型预测: {predicted_class_name}")# 显示预测类别的 Shapley 值
# 取出预测类别的shap值，并与词汇对应
shap_values_for_pred_class = shap_values_obj.values[0, :, predicted_class_idx]for i, word in enumerate(word_list_shap):print(f"  Word: '{word}', SHAP Value: {shap_values_for_pred_class[i]:.4f}")# 如果在Jupyter环境下，可以尝试交互式可视化
# shap.initjs() # 初始化js
# shap.plots.force(shap_values_obj[0,:,predicted_class_idx]) # 对单个样本的可视化

代码说明：

shap.Explainer是SHAP的核心，它根据不同的后端模型和数据类型选择合适的解释器（如KernelExplainer、DeepExplainer等）。
classifier_fn_shap：同样是适配器函数，将输入文本的列表转换为黑箱模型预测的概率矩阵。
background_text：对于KernelExplainer，需要提供一些背景数据，用来模拟没有某个特征时的模型输出。
explainer_shap(inputs_to_explain)：计算输入样本的SHAP值。
SHAP提供了多种可视化方法，包括文本、力图（force plots）、依赖图等，可以直观地展示特征贡献。

总结

本章我们深入探讨了大模型的评测与可解释性，这是确保AI系统可靠、可信和负责任的关键。

大模型效果评估 不仅仅局限于单一指标，而是需要多维度考量，包括通用任务指标（如PPL, BLEU, mAP）、零样本/少样本能力，以及对鲁棒性和公平性的评估。
可解释人工智能（XAI） 旨在揭示大模型决策的“黑箱”。我们介绍了两种主要的可解释性方法：
- 模型内部可解释性： 例如注意力可视化和特征可视化，直接分析模型内部组件。
- 模型外部可解释性： LIME 和 SHAP 作为模型无关的方法，通过分析输入输出关系来解释局部和全局的决策，它们的应用更为广泛，尤其适用于不便修改内部结构的大模型。

通过多维度的评测，我们可以更全面地了解大模型的能力边界；通过可解释性技术，我们能更好地理解大模型的工作原理，发现潜在问题，并增强对AI决策的信任。这两者共同构成了大模型负责任开发和应用的重要基石。