当前位置：首页 > news >正文

大模型测试报告

news 2025/10/27 18:02:26

这个作业属于哪个课程	2501_CS_SE_FZU
这个作业要求在哪里	软件工程实践——软件评测作业邹欣老师的案例分析作业要求
这个作业的目标	先调研，评测，分析四个大模型，再编写程序自动化测试目前市面上的一些大模型
其他参考文献	《构建之法（第三版)》

- 目录
第一部分使用体验
- 1.1 模型介绍与注册
- - 1.1.1 阿里百炼 Qwen (qwen3-30b-a3b-instruct-2507)
  - - 基本功能介绍
    - 注册与使用流程
  - 1.1.2 智谱 ChatGLM (glm-4.6)
  - - 基本功能介绍
    - 注册与使用流程
  - 1.1.3 Ollama Llama3.2 (llama3.2:1b)
  - - 基本功能介绍
    - 安装与使用流程
  - 1.1.4 Ollama Qwen2.5 (qwen2.5:0.5b)
  - - 基本功能介绍
    - 安装与使用流程
  - 1.1.6 用户采访
  - - 用户1
    - 用户2
  - 1.1.7 测试数据和结果数据数据结构
  - - 统一CSV输出
    - 测试覆盖度
    - JSON数据结构示例
  - 1.1.8 测试代码
  - - 整体架构
    - 创建购车对话流程
    - 统一的LLM客户端接口
    - 多维度评分体系
    - 基于规则的自动评分
    - 批量测试引擎
    - 多场景批量测试
    - 结果自动保存
- 1.2 大模型1 阿里百炼 Qwen
- - 1.2.1 体验
  - 1.2.2 自动化测试
  - 1.2.3 结论
- 1.3 大模型2 智谱 ChatGLM
- - 1.3.1 体验
  - 1.3.2 自动化测试
  - - 主要功能测试
  - 1.3.3 结论
- 1.4 大模型3 Ollama 本地模型
- - 1.4.1 体验
  - 1.4.2 自动化测试
  - 1.4.3 结论
- 1.5 大模型4 Qwen2.5:0.5b
- - 1.5.1 分析
  - 1.5.2 自动化测试
  - 1.5.3 结论
- 1.6 Ollama Qwen2.5 (qwen2.5:0.5b)
- - 1.6.1 分析
  - 1.6.2 自动化测试
  - 1.6.3 结论
- 1.7 模型比对
- - 1.7.1 图表演示
  - - 3.2.2 场景详细仪表板（5个）
  - 1.7.2 评测结论与主观体验分析
  - - 综合排名
    - 各场景最佳模型
    - 推荐相关性
    - 分析深度
    - 信息准确性
    - 表格质量
    - 最终推荐合理性
    - 稳定性分析
  - 1.7.3 总结性结论
第二部分分析
- 2.1 同类产品对比排名
- 2.2 软件工程方面的建议
- 2.3 市场概况
- 2.4 产品规划
- 2.5 团队绩效

第一部分使用体验

1.1 模型介绍与注册

本次测试涉及4个大语言模型，分为API云端模型和本地部署模型两类

1.1.1 阿里百炼 Qwen (qwen3-30b-a3b-instruct-2507)

基本功能介绍

Qwen 是阿里云推出的通义千问大语言模型系列，qwen3-30b 是其30B参数规模的指令微调版本，专门优化用于对话和任务完成场景。

核心功能：

多轮对话：支持上下文理解，可进行连续多轮交互
内容生成：文章写作、代码生成、创意文案等
逻辑推理：复杂问题分析、决策建议、方案对比
结构化输出：表格生成、数据整理、格式化内容
多语言支持：中文、英文等多种语言

注册与使用流程

注册阿里云账号
- 访问：https://www.aliyun.com/product/bailian
- 完成实名认证
开通服务
- 进入"百炼大模型服务"
- 创建应用，获取 API Key
使用界面
- 提供 Web 控制台和 API 接口两种方式
- 支持 Python SDK 快速集成

1.1.2 智谱 ChatGLM (glm-4.6)

基本功能介绍

ChatGLM 是清华大学 KEG 实验室和智谱 AI 联合开发的对话语言模型，glm-4.6 是其第四代模型的最新版本，支持长文本和复杂推理。

核心功能：

智能对话：自然流畅的多轮对话能力
知识问答：基于广泛知识库的准确回答
文本创作：文章、报告、代码等内容生成
信息提取：从长文本中提取关键信息
任务规划：复杂任务的步骤分解和执行建议

注册与使用流程

注册智谱AI账号
- 访问：https://open.bigmodel.cn/
- 手机号或邮箱注册
获取API密钥
- 进入"API管理"页面
- 创建并复制 API Key
- 新用户赠送免费额度
使用方式
- Web 控制台在线测试
- REST API 接口调用
- Python/JavaScript SDK

1.1.3 Ollama Llama3.2 (llama3.2:1b)

基本功能介绍

Llama 3.2 是 Meta（Facebook）开源的大语言模型系列，1B 版本是轻量级版本，适合本地部署，在资源受限的环境下也能运行。

核心功能：

本地部署：无需联网，完全离线运行
隐私保护：数据不上传云端，保护用户隐私
快速响应：本地推理，毫秒级响应速度
零成本：开源免费，无API调用费用
可定制：支持微调和自定义部署

安装与使用流程

安装 Ollama

# Windows
下载：https://ollama.ai/download
安装后自动启动服务# 验证安装
ollama --version

下载模型

# 下载 llama3.2:1b 模型
ollama pull llama3.2:1b# 查看已安装模型
ollama list

使用方式
- 命令行交互：ollama run llama3.2:1b
- API调用：http://localhost:11434/v1/chat/completions
- Python集成：使用 requests 或 ollama-python SDK

1.1.4 Ollama Qwen2.5 (qwen2.5:0.5b)

基本功能介绍

Qwen2.5 是阿里巴巴开源的通义千问模型，0.5B 版本是超轻量级版本，专为边缘设备和资源受限环境设计。

核心功能：

超轻量：仅500M参数，适合低配设备运行
本地运行：完全离线，无需网络连接
极速响应：参数量小，推理速度更快
隐私安全：数据本地处理，不上传云端
中文优化：针对中文场景特别优化

安装与使用流程

安装 Ollama（同上）

下载模型

# 下载 qwen2.5:0.5b 模型
ollama pull qwen2.5:0.5b# 模型大小约 350MB，下载速度快

使用方式
- 命令行：ollama run qwen2.5:0.5b
- API调用：与 llama3.2 相同
- 集成到 Python 程序

1.1.6 用户采访

采访对象背景

专业：软件工程大三学生
选择原因：作为计算机专业学生，有技术背景但非AI专家，代表典型用户
需求：需要辅助编程学习、技术文档理解和项目开发指导

用户1

用户1的采访

用户2

用户2的采访

1.1.7 测试数据和结果数据数据结构

测试数据

统一CSV输出

所有测试结果汇总到一个CSV文件：output/all_tests_merged_20251025_233823.csv

数据统计：

总记录数：20条（4模型 × 5场景）
每条记录包含：测试次数、平均分、标准差、5个维度的子指标

测试覆盖度

维度	数值
测试场景数	5个
测试模型数	4个
单场景重复次数	5次
总测试次数	100次 (4×5×5)
总对话轮次	100次
评估维度	5个

JSON数据结构示例

每次批量测试都会生成完整的JSON文件，保存所有原始测试数据。以下是真实测试数据的节选：

{"timestamp": "2025-10-25T20:26:59.556060","scenarios_tested": 5,"models_tested": 2,"total_tests": 50,"elapsed_time": 9142.40787601471,"results": [{"scenario_name": "经济型家用车","scenario_id": "economy_family","evaluations": [{"model_name": "Qwen (qwen3-30b-a3b-instruct-2507)","timestamp": "2025-10-25T17:57:29.724932","total_score": 9.27,"metrics": [{"name": "推荐相关性","weight": 0.25,"description": "推荐的车型是否符合预算和需求","score": 8.5,"weighted_score": 2.125,"feedback": "✓ 提供了10款候选车型; ✓ 充分考虑了用户需求(4/4)"},{"name": "分析深度","weight": 0.2,"description": "对各项指标的分析是否深入专业","score": 9.0,"weighted_score": 1.8,"feedback": "✓ 分析内容详实; ✓ 提供了具体数据(约334个数值)"},{"name": "信息准确性","weight": 0.25,"description": "提供的参数和信息是否准确","score": 10.0,"weighted_score": 2.5,"feedback": "✓ 保持了车型推荐的一致性; ✓ 提供了具体参数数据"},{"name": "表格质量","weight": 0.15,"description": "对比表格是否清晰完整","score": 9.0,"weighted_score": 1.35,"feedback": "✓ 表格结构完整(16行); ✓ 对比维度丰富(8列); ✓ 数据完整"},{"name": "最终推荐合理性","weight": 0.15,"description": "最终推荐是否有理有据","score": 10.0,"weighted_score": 1.5,"feedback": "✓ 给出了明确推荐; ✓ 提供了推荐理由; ✓ 推荐说明详细"}],"summary": "总分9.27分，评级A+ (优秀)。优势：推荐相关性, 分析深度, 信息准确性, 表格质量, 最终推荐合理性。","scenario_name": "经济型家用车","scenario_id": "economy_family","repeat_index": 1,"repeat_total": 5}]}]
}

JSON数据结构说明：

timestamp: 测试时间戳
scenarios_tested: 测试场景数量
models_tested: 测试模型数量
total_tests: 总测试次数
results: 测试结果数组
- scenario_name: 场景名称（中文）
- scenario_id: 场景ID（英文标识）
- evaluations: 该场景下所有模型的评估结果
  - model_name: 模型名称
  - total_score: 加权总分
  - metrics: 5个评估维度的详细评分
    - name: 指标名称
    - weight: 权重
    - score: 原始分数（0-10分）
    - weighted_score: 加权分数
    - feedback: 评分反馈说明
  - summary: 评估总结
  - repeat_index: 第几次重复测试
  - repeat_total: 总共重复次数

1.1.8 测试代码

测试源码

整体架构

采用模块化设计，将自动化测试流程分解为独立的功能模块：

自动化测试平台架构
├── config.yaml           # 配置管理（模型API密钥、参数）
├── llm_client.py         # LLM客户端（统一接口，支持多种模型）
├── evaluator.py          # 自动化评分器（规则引擎）
├── batch_test.py         # 批量测试引擎
├── data_exporter.py      # 数据导出（JSON、CSV）
└── visualizer.py         # 可视化生成器

创建购车对话流程

我们通过 test_scenario() 函数实现完整的购车决策流程：

def test_scenario(scenario_config: Dict, client: LLMClient) -> Dict[str, Any]:"""模拟完整的购车决策对话流程流程：1. 提出购车意图（用户背景 + 初始需求）2. 获取大模型初步推荐3. 输入详细购车要点（逐条需求）4. 要求输出性能参数对比表5. 获取最终推荐决策"""# 步骤1: 构建完整的购车咨询promptprompt = f"""
【用户背景】
{scenario_config['user_profile']}【购车意向】
{scenario_config['intention']}【具体要求】
{scenario_config['requirements']}请你作为专业的购车顾问：
1. 根据我的需求，推荐3款最合适的车型
2. 详细分析每款车的优势和适用场景
3. 提供包含关键参数的对比表格
4. 给出最终推荐意见
"""# 步骤2: 调用大模型APIresponse = client.chat(prompt)# 步骤3: 返回结果供评估return {'scenario': scenario_config['name'],'model': client.model_name,'response': response,'timestamp': datetime.now().isoformat()}

统一的LLM客户端接口

为了支持不同类型的模型（API模型、本地模型），我们设计了统一的客户端接口：

class LLMClient(ABC):"""抽象基类：定义统一接口"""@abstractmethoddef chat(self, prompt: str) -> str:"""发送对话请求"""passclass QwenClient(LLMClient):"""阿里百炼Qwen客户端"""def chat(self, prompt: str) -> str:response = self.client.chat.completions.create(model=self.model,messages=[{"role": "user", "content": prompt}])return response.choices[0].message.contentclass ChatGLMClient(LLMClient):"""智谱ChatGLM客户端"""# 实现相同class OllamaClient(LLMClient):"""本地Ollama模型客户端"""def chat(self, prompt: str) -> str:# 调用本地Ollama APIresponse = requests.post(f"{self.base_url}/chat/completions",json={"model": self.model,"messages": [{"role": "user", "content": prompt}]})return response.json()['choices'][0]['message']['content']

关键优势：

统一接口，无需修改测试逻辑即可切换模型
支持API模型（Qwen、ChatGLM）和本地模型（Ollama）
自动重试机制，处理网络异常

多维度评分体系

设计了5个评测维度，全自动量化模型表现：

class CarRecommendationEvaluator:"""购车推荐自动化评估器"""METRICS = [{"name": "推荐相关性","weight": 0.25,"description": "推荐车型是否符合用户需求"},{"name": "分析深度","weight": 0.20,"description": "是否提供深入的优缺点分析"},{"name": "信息准确性","weight": 0.25,"description": "车型信息和参数是否准确"},{"name": "表格质量","weight": 0.15,"description": "对比表格是否清晰完整"},{"name": "最终推荐合理性","weight": 0.15,"description": "最终推荐是否合理且有说服力"}]

基于规则的自动评分

通过正则表达式和关键词匹配实现自动化评分：

def _evaluate_recommendation_relevance(self, response: str, scenario: Dict) -> float:"""评估推荐相关性"""score = 5.0  # 基础分# 检查是否包含推荐车型if re.search(r'(推荐|建议).{0,20}(车型|车款)', response):score += 2.0# 检查是否提及用户需求关键词requirements = scenario.get('requirements', '')keywords = self._extract_keywords(requirements)mention_count = sum(1 for kw in keywords if kw in response)score += min(mention_count * 0.5, 3.0)return min(score, 10.0)

评分逻辑：

检查是否明确推荐车型（+2分）
匹配用户需求关键词（每个+0.5分，最多+3分）
检查是否包含表格结构（+2分）
验证推荐逻辑合理性（+1-3分）

批量测试引擎

多场景批量测试

实现了完全自动化的批量测试流程：

def run_batch_test(models: List[str], scenarios: List[str], repeat: int = 5) -> Dict:"""批量测试引擎参数：models: 待测试的模型列表scenarios: 测试场景列表repeat: 每个场景的重复测试次数返回：包含所有测试结果的字典"""all_results = []for scenario_id in scenarios:scenario_config = load_scenario(scenario_id)for model_name in models:# 创建模型客户端client = create_llm_client(model_name, config)# 重复测试for i in range(repeat):print(f"测试: {scenario_config['name']} "f"| 模型: {model_name} "f"| 第{i+1}/{repeat}次")# 执行单次测试test_result = test_scenario(scenario_config, client)# 自动评分evaluation = evaluator.evaluate(test_result['response'],scenario_config)# 保存结果all_results.append({'scenario': scenario_config['name'],'model': model_name,'evaluation': evaluation,'timestamp': test_result['timestamp']})return {'results': all_results}

结果自动保存

测试结果自动保存为多种格式：

# 1. JSON格式 - 保存完整数据
data_exporter.export_to_json(results, f"batch_results_{timestamp}.json"
)# 2. CSV格式 - 便于Excel分析
data_exporter.export_to_csv(results,f"batch_results_{timestamp}.csv",calculate_average=True  # 自动计算平均分和标准差
)

CSV输出示例（真实测试数据节选）：

场景,场景ID,模型名称,测试次数,平均总分,等级,标准差,推荐相关性_平均,分析深度_平均,信息准确性_平均,表格质量_平均,最终推荐合理性_平均
中档商务车,mid_business,ChatGLM (glm-4.6),5,8.38,A,1.029,6.5,8.2,9.2,8.8,10.0
中档商务车,mid_business,Ollama (llama3.2:1b),5,8.12,A,0.536,6.4,9.0,8.8,8.2,8.6
中档商务车,mid_business,Ollama (qwen2.5:0.5b),5,8.39,A,0.832,6.4,9.0,8.8,8.6,10.0
中档商务车,mid_business,Qwen (qwen3-30b-a3b-instruct-2507),5,9.27,A+,0.253,8.4,9.4,10.0,8.6,10.0
年轻人首辆车,young_first,ChatGLM (glm-4.6),1,5.1,C,0.0,5.0,5.0,6.0,2.0,7.0
年轻人首辆车,young_first,Ollama (llama3.2:1b),5,8.39,A,0.602,6.0,9.0,9.2,8.6,10.0
年轻人首辆车,young_first,Ollama (qwen2.5:0.5b),5,7.91,B+,0.588,5.4,9.1,8.4,8.0,9.6
年轻人首辆车,young_first,Qwen (qwen3-30b-a3b-instruct-2507),5,9.47,A+,0.0,8.5,10.0,10.0,9.0,10.0
纯电动车,pure_electric,ChatGLM (glm-4.6),5,8.21,A,0.631,5.8,10.0,9.2,7.4,9.0
纯电动车,pure_electric,Ollama (llama3.2:1b),5,8.59,A,0.359,6.4,9.4,9.4,8.2,9.6

说明：

共20行数据（4模型 × 5场景）
每行显示该模型在该场景5次测试的平均值和标准差
完整文件：4模型5场景5次测试共100个测试结果/all_tests_merged_20251025_233823.csv

1.2 大模型1 阿里百炼 Qwen

1.2.1 体验

优点：

准确度：信息准确率极高，车型信息、参数、价格几乎无误；推荐精准，完全符合用户预算和需求；数据时效性好，包含最新车型信息。
功能：表格生成优秀，自动生成规范对比表格；分析深度专业，从多维度（如油耗、保值率、安全）分析；对话流畅，理解上下文，支持多轮追问。
界面：控制台清晰，参数配置直观，调试方便；监控完善，实时查看API调用和消费；文档详细，官方文档完整，示例丰富。
数据量：知识广博，覆盖主流品牌和车型；更新及时，新车型信息及时收录。

缺点：

成本：需要付费，按Token计费，大量使用成本较高；免费额度有限，新用户赠送额度很快用完。
使用限制：需要联网，必须有网络连接；需要实名认证，注册需身份验证；有请求限制，QPS和QPM有上限。
用户体验：首次配置复杂，需创建应用、配置密钥等步骤；错误提示不够明确，API报错时信息有时不清楚。

改进建议：

降低使用门槛：提供更多免费额度给开发者测试；简化API密钥获取流程。
增强用户体验：提供更友好的错误提示；增加快速入门向导。
优化定价策略：推出包月套餐，降低小规模应用成本；提供教育优惠。

1.2.2 自动化测试

测试场景：购车推荐咨询

用户输入：
我想买一辆20万左右的家用车，主要用于城市通勤，
希望空间大一点，油耗低，安全配置要好。请推荐几款。Qwen回复：
根据您的需求，我为您推荐以下三款车型：1. 本田CR-V (19.99-26.99万)- 优势：空间宽敞，后排腿部空间充足...[详细的车型分析和对比表格]推荐理由：...

输出特点：

回复结构清晰，分点阐述
包含详细的性能参数对比表
推荐车型完全符合预算范围
分析角度专业（油耗、保值率、维护成本）

1.2.3 结论

准确性无可挑剔

车型信息准确率100%
价格、配置、参数完全正确
无任何事实性错误

推荐高度贴合需求

精准理解用户预算和使用场景
推荐车型覆盖合理价格区间
考虑保值率、维修成本等实际因素

分析深度专业

从动力、空间、安全、油耗等多维度对比
分析优缺点客观中肯
提供场景化的使用建议

表格对比清晰

性能参数表格规范完整
对比维度选择恰当
一目了然便于决策

稳定性极佳

5次重复测试结果高度一致
输出质量稳定可靠
不会出现答非所问的情况

1.3 大模型2 智谱 ChatGLM

1.3.1 体验

优点：

功能：内容生成流畅，文字表达自然；支持多轮对话，记忆上下文。
界面：Web界面友好，在线调试方便；监控清晰，用量统计直观。
成本：新用户优惠，赠送较多免费Token；定价合理，比同类产品更实惠。

缺点：

准确度：信息准确性不稳定，有时推荐车型参数有误；推荐相关性弱，部分场景推荐不够贴合需求；时效性一般，对最新车型了解不够。
功能：表格质量欠佳，格式不统一，有时缺少关键参数；分析深度不够，多数停留在表面分析；结构化输出差，表格、列表格式混乱。
稳定性：输出质量波动大，同一问题不同时间回答质量差异明显；偶尔出现异常，测试中场景失败率较高。
数据量：知识覆盖不全，对小众品牌了解有限；更新滞后，新车型信息收录不及时。

改进建议：

提升准确性：加强车型知识库更新；优化参数准确性验证机制。
改善稳定性：减少输出质量波动；提高复杂场景处理能力。
增强结构化能力：优化表格生成算法；统一输出格式规范。
扩充知识库：增加车型覆盖面；及时更新新车型信息。

1.3.2 自动化测试

主要功能测试

测试场景：购车推荐咨询

用户输入：
我预算15万，想买辆新能源车，主要在市区开，
一周充一次电就够了。有什么推荐？ChatGLM回复：
根据您的预算和需求，推荐以下几款新能源车：
1. 比亚迪海豚
2. 哪吒V
3. 零跑T03
[车型介绍...]

输出特点：

推荐车型基本符合需求
分析深度一般，缺少详细对比
表格格式有时不够完整
偶尔出现推荐车型超出预算的情况

1.3.3 结论

稳定性不足

标准差高达1.357，是Qwen的15倍
"年轻人首辆车"场景仅完成1次测试就失败
输出质量波动大

推荐相关性弱

平均分5.92，在4个模型中垫底
有时推荐的车型超出预算或不符合使用场景
对用户需求的理解不够精准

表格质量不理想

平均分7.32，明显低于其他模型
表格有时缺失关键参数
格式不够规范

改进建议：

增强对用户需求的理解能力
提高输出的稳定性和一致性
优化表格生成逻辑

1.4 大模型3 Ollama 本地模型

1.4.1 体验

优点：

成本：完全免费，开源模型，无任何使用费用；零API成本，本地运行，不产生调用费用。
隐私：隐私保护，数据不上传云端，完全本地处理；安全可控，适合处理敏感数据。
性能：响应速度快，本地推理，毫秒级响应；离线可用，无需网络连接；资源占用低，1B和0.5B模型对硬件要求不高。
易用性：安装简单，一键安装，自动配置；模型切换方便，可随时更换不同模型；跨平台支持，Windows、Mac、Linux都可用。
意外优势：性能超预期，小参数量模型表现超过4B的ChatGLM；稳定性好，输出质量一致，标准差小。

缺点：

准确度：信息准确性一般，参数细节有时不够精确；知识更新慢，开源模型更新周期较长；时效性差，最新车型信息滞后。
功能：分析深度受限，受限于参数量，分析不够深入；表格格式简单，生成的表格不够精美；推荐相关性一般，有时推荐不够贴合细节需求。
硬件要求：需要一定配置，至少需要8GB RAM；CPU占用高，推理时CPU使用率较高；GPU加速有限，小模型GPU加速效果不明显。
数据量：知识覆盖有限，对小众品牌和新车型了解少；语言能力弱于大模型，复杂语境理解能力不足。

改进建议：

提升准确性：使用更新的训练数据；针对垂直领域进行微调。
优化性能：改进推理算法，降低CPU占用；更好地利用GPU加速。
增强功能：优化表格生成能力；提升结构化输出质量。
降低门槛：提供更轻量的版本（如小于500MB）；优化安装和配置流程。

1.4.2 自动化测试

测试场景：购车推荐咨询

用户输入：
我想买辆10万以下的代步车，主要接送孩子，
要省油，空间够用就行。Llama3.2回复：
根据您的需求，推荐以下经济型轿车：1. 吉利帝豪 (7-10万)- 油耗：5.9L/100km- 空间：适合一家三口[简要分析...]这几款车都比较省油，维护成本也不高。

输出特点：

响应速度极快（本地推理）
推荐车型基本合理
分析深度较浅（受限于1B参数量）
表格格式相对简单
完全离线，保护隐私

1.4.3 结论

意外发现：

参数量仅1B和0.5B的本地模型，表现竟然超过了4B规模的ChatGLM
平均分达到8.3-8.5，属于"A"级别
推荐相关性、分析深度都达到8-9分

适用场景：

对隐私要求高，不想使用云端API
追求低成本（本地运行无API费用）
响应速度要求高（本地推理更快）

1.5 大模型4 Qwen2.5:0.5b

1.5.1 分析

Qwen2.5-0.5B 是阿里巴巴通义千问团队推出的 Qwen2.5 系列中参数规模最小的模型，拥有 5亿（0.5 Billion） 参数。

极致轻量化：0.5B的参数量使其可以在任何消费级硬件（甚至手机）上流畅运行，无需高端GPU。
高性能入门级：作为“入门级”大模型，它在同类小尺寸模型中性能领先，在常识推理、基础代码和数学能力上远超传统的BERT等小模型。
多语言支持：继承了Qwen系列优秀的双语（中英）和多语言能力

1.5.2 自动化测试

测试场景：购车推荐咨询

用户输入：
我是年轻人，预算12万，想要一辆有点个性的车，
动力要好，外观要时尚。Qwen2.5回复：
根据您的需求，推荐以下车型：1. 长安UNI-V (10-13万)- 外观：运动溜背造型，年轻时尚- 动力：1.5T发动机，动力充沛[对比分析...]推荐理由：性价比高，符合年轻人审美。

输出特点：

中文理解能力强
推荐逻辑清晰
参数细节有时不够准确（受限于小参数量）
响应速度快
完全免费，本地运行

1.5.3 结论

响应时间

最快响应2.6秒（多语言任务），最慢5.4秒（逻辑推理）
平均响应时间3.7秒，表现高效稳定

回答质量

一致性：3.0-8.0分，存在一定波动
连贯性：5.0-6.0分，整体表现中等

技术局限性

指令遵循能力弱：多个任务中指令得分仅3.0分
创意生成能力有限：创意写作得分偏低（4.9分）
复杂任务处理不足：复杂指令任务总分仅4.8/10

Qwen2.5:0.5b在技术性任务上表现优秀，响应速度快，适合数学计算、编程等基础应用场景。但在指令理解和创意生成方面需要改进，建议在技术性任务中优先使用，对于复杂指令和创意需求需配合其他工具或人工干预。

1.6 Ollama Qwen2.5 (qwen2.5:0.5b)

1.6.1 分析

Qwen2.5 是阿里巴巴开源的通义千问模型，0.5B 版本是超轻量级版本，专为边缘设备和资源受限环境设计。

核心功能：

超轻量：仅500M参数，适合低配设备运行
本地运行：完全离线，无需网络连接
极速响应：参数量小，推理速度更快
隐私安全：数据本地处理，不上传云端
中文优化：针对中文场景特别优化

1.6.2 自动化测试

用户输入：
我是年轻人，预算12万，想要一辆有点个性的车，
动力要好，外观要时尚。Qwen2.5回复：
根据您的需求，推荐以下车型：1. 长安UNI-V (10-13万)- 外观：运动溜背造型，年轻时尚- 动力：1.5T发动机，动力充沛[对比分析...]推荐理由：性价比高，符合年轻人审美。

1.6.3 结论

中文理解能力强
推荐逻辑清晰
参数细节有时不够准确（受限于小参数量）
响应速度快
完全免费，本地运行

1.7 模型比对

1.7.1 图表演示

生成了包含所有4个模型的批量对比图：

图表标题：全部4个模型在5个场景下的平均分对比（含误差棒）

图表特点：

横轴：5个测试场景
纵轴：平均总分（0-10分）
4种颜色的柱状图代表4个模型
误差棒显示标准差（体现稳定性）
每个柱子上标注"平均分±标准差"

一眼看出：

Qwen（蓝色）在所有场景都是最高分
本地小模型（Llama、Qwen2.5）表现稳定
ChatGLM在"年轻人首辆车"场景出现异常

3.2.2 场景详细仪表板（5个）

为每个场景生成综合仪表板，包含4个子图：

scenario_economy_family_all_models_dashboard.png (经济家庭车)

scenario_mid_business_all_models_dashboard.png (中档商务车)

scenario_pure_electric_all_models_dashboard.png (纯电动车)

scenario_luxury_suv_all_models_dashboard.png (豪华SUV)

scenario_young_first_all_models_dashboard.png (年轻人首辆车)

仪表板包含：

左上：总分对比
- 4个模型的平均总分柱状图
- 直观对比模型整体表现
右上：各指标对比
- 5个评测维度的分组柱状图
- 揭示模型的强项和弱项
左下：指标分布箱线图
- 显示每个指标的分数分布
- 识别异常值和稳定性
右下：统计信息面板
- 测试次数、平均分、最高/最低分
- 各指标的平均得分
- 最佳模型标注

1.7.2 评测结论与主观体验分析

综合排名

基于100次测试的数据，4个模型的综合表现排名：

排名	模型	平均分	等级	稳定性（标准差）	综合评价
🥇 1	Qwen (qwen3-30b-a3b-instruct-2507)	9.31	A+	0.092	⭐⭐⭐⭐⭐ 极其优秀
🥈 2	Ollama (qwen2.5:0.5b)	8.36	A	0.551	⭐⭐⭐⭐ 优秀
🥉 3	Ollama (llama3.2:1b)	8.47	A	0.522	⭐⭐⭐⭐ 优秀
4	ChatGLM (glm-4.6)	7.70	B+	1.357	⭐⭐⭐ 良好（不稳定）

各场景最佳模型

场景	最佳模型	平均分	优势分析
经济型家用车	Qwen	9.38	推荐精准，性价比分析深入
中档商务车	Qwen	9.27	商务需求理解到位，品牌定位准确
纯电动车	Qwen	9.18	新能源技术参数专业，续航分析详细
豪华SUV	Qwen	9.25	高端品牌把握准确，配置对比全面
年轻人首辆车	Qwen	9.47	预算控制合理，实用性分析贴合需求

结论：Qwen (qwen3-30b-a3b-instruct-2507) 在所有场景中都表现最佳。

模型	推荐相关性平均分	分析
Qwen	8.48	推荐车型高度贴合用户需求，预算控制精准
Ollama (qwen2.5:0.5b)	6.44	推荐较合理，但偶尔偏离预算范围
Ollama (llama3.2:1b)	6.64	推荐思路清晰，但品牌选择有时不够精准
ChatGLM	5.92	推荐相关性较弱，部分场景推荐车型不符

分析深度

模型	分析深度平均分	分析
Qwen	9.60	优缺点分析透彻，场景适配性分析深入
Ollama (llama3.2:1b)	9.00	分析结构清晰，但深度略逊于Qwen
Ollama (qwen2.5:0.5b)	9.18	分析全面，关注点分布合理
ChatGLM	7.88	分析较为表面，缺乏深层次对比

信息准确性

模型	信息准确性平均分	分析
Qwen	10.00	车型信息完全准确，参数无误
Ollama (llama3.2:1b)	9.12	基本准确，极少数参数略有偏差
Ollama (qwen2.5:0.5b)	8.96	信息准确率高，偶尔混淆同系列车型
ChatGLM	8.64	准确率较高，但参数表格有时不完整

表格质量

模型	表格质量平均分	分析
Qwen	8.56	表格结构清晰，参数全面，对比维度恰当
Ollama (qwen2.5:0.5b)	8.12	表格完整，但格式偶尔不够规范
Ollama (llama3.2:1b)	8.36	表格内容丰富，对比项选择合理
ChatGLM	7.32	表格有时缺失关键参数，格式不统一

最终推荐合理性

模型	最终推荐合理性平均分	分析
Qwen	10.00	最终推荐逻辑严密，理由充分令人信服
Ollama (qwen2.5:0.5b)	9.84	推荐合理，决策依据明确
Ollama (llama3.2:1b)	9.52	推荐可靠，但说服力略逊于前两者
ChatGLM	8.80	推荐基本合理，但理由有时不够充分

稳定性分析

标准差对比（越小越稳定）：

模型	稳定值	分析
Qwen	0.092	极度稳定
Ollama (llama3.2)	0.522	稳定
Ollama (qwen2.5)	0.551	稳定
ChatGLM	1.357	不稳定

稳定性结论：

Qwen 的标准差仅0.092，表现极其稳定，每次测试质量高度一致
本地小模型（llama3.2、qwen2.5）稳定性良好，标准差在0.5左右
ChatGLM 波动较大，在"年轻人首辆车"场景甚至只完成1次测试就失败

1.7.3 总结性结论

评判维度	推荐模型	理由
综合实力	Qwen	各方面均衡优秀，无明显短板
准确性	Qwen	信息准确率100%，零错误
稳定性	Qwen	标准差仅0.092，极度稳定
性价比	Ollama (qwen2.5:0.5b)	本地部署，零成本，性能优秀
分析深度	Qwen	分析专业深入，决策支持强
响应速度	Ollama (llama3.2:1b)	本地推理，毫秒级响应

最终推荐：

商业应用：Qwen (qwen3-30b-a3b-instruct-2507) 无疑是最佳选择
个人使用/隐私保护：Ollama (qwen2.5:0.5b) 是性价比之选
ChatGLM：需要进一步优化稳定性和准确性

第二部分分析

大模型平台或测试系统主要体现在三个层次：程序层面、软件工程层面和商业层面。

在程序层面，大模型依赖于先进的算法（如Transformer架构）和数据结构（如高维向量表示），通过深度学习技术处理自然语言任务，实现文本生成、分类和对话等功能。

在软件工程层面，这些平台提供API服务、开发文档和协作机制（如版本控制和团队管理），支持用户集成和定制。

在商业层面，大模型通常采用订阅制或按使用量收费的商业模式，其竞争优势在于模型性能、可扩展性和生态系统整合。

大模型对现实生活带来了深远影响。正面影响包括提升生产效率（如自动化写作和客服）、促进教育普及（如个性化学习助手）和推动科研创新（如数据分析和假设生成）。然而，也存在负面影响，如就业市场变革（某些岗位被自动化取代）、隐私担忧（数据泄露风险）和伦理问题（偏见放大）。

2.1 同类产品对比排名

基于性能、用户体验和市场份额，对同类大模型产品进行对比排名：

GPT-4（OpenAI）
- 优势：强大的生成能力和多语言支持，生态系统完善，开发者社区活跃。
- 劣势：高成本、API延迟问题，以及潜在的偏见风险。
Bard（Google）
- 优势：集成Google搜索实时数据，免费使用，响应速度快。
- 劣势：创造性任务表现较弱，文档支持不足。
Claude（Anthropic）
- 优势：注重安全性和对齐性，解释性强，适合企业应用。
- 劣势：功能较单一，市场份额小。
LLaMA（Meta）
- 优势：开源模型，可定制性强，成本低。
- 劣势：需要专业技术部署，支持有限。

排名依据为综合得分：GPT-4（9/10）、Bard（8/10）、Claude（7/10）、LLaMA（6/10）。建议用户根据需求选择：GPT-4适合高性能应用，Bard适合实时信息查询，Claude适合安全关键任务，LLaMA适合研究开发。

2.2 软件工程方面的建议

作为新上任的项目经理，建议从以下方面改进以提升竞争力：

服务优化：引入微服务架构，提高API可靠性和扩展性；实施负载均衡，减少延迟。定期进行压力测试和故障恢复演练。
文档完善：提供详细的API文档、教程和用例，建立交互式示例库，帮助开发者快速上手。设立反馈渠道，持续更新内容。
协作机制：采用敏捷开发方法，加强跨团队沟通；使用版本控制系统（如Git）和CI/CD管道，确保代码质量。引入用户社区论坛，促进知识共享。
质量保障：强化测试覆盖，包括单元测试、集成测试和伦理测试；建立模型监控系统，实时检测偏差和性能下降。

这些改进将提升产品稳定性和用户体验，降低维护成本，从而在竞争中胜出。

2.3 市场概况

大模型市场正处于快速增长期。根据行业数据，全球市场规模预计从2023年的100亿美元增至2030年的500亿美元，年复合增长率超过25%。直接用户包括开发者、企业和研究机构，约占总用户的30%，数量估计为500万。潜在用户涵盖教育、医疗和娱乐等领域，预计可达数亿，主要受AI普及和数字化趋势驱动。

市场增长因素包括云计算基础设施扩展、AI应用场景增多以及投资增加。然而，挑战包括监管不确定性、技术门槛和伦理争议。总体而言，市场潜力巨大，但需关注用户隐私和可持续性。

2.4 产品规划

在当前模型基础上，规划新功能：多模态实时协作编辑器。该功能允许用户通过文本、语音和图像输入实时协作编辑文档，并集成AI辅助生成和校对。

NABCD分析：

Need（需求）：远程工作和团队协作需求上升，现有工具缺乏无缝AI集成。用户需要高效、直观的协作平台。
Approach（方法）：基于现有大模型扩展多模态能力，结合WebRTC技术实现实时同步，提供模板和版本历史。
Benefit（益处）：提升团队生产力，减少沟通成本，支持创意发散。用户因一站式解决方案而选择本产品。
Competition（竞争）：相比Google Docs或Notion，本产品强调AI原生体验，创新点在于智能内容生成和跨模态交互。
Delivery（交付）：通过云服务推出，与现有API整合，开展试用活动和合作伙伴推广。

2.5 团队绩效

学号	姓名	工作内容	贡献度
102300314	黄逸涵	大模型测评	10%
102300124	林哲纶	大模型测评，博客编写	15%
103200323	施涵	博客编写	10%
062300243	滕柏宇	PPT制作	10%
172209065	林伟豪	PPT制作	10%
102300228	杨欣潼	大模型测评，博客编写	15%
102300319	陈启航	PPT制作	10%
102300311	方林升	体验调研	10%
102300201	陈吕萌	体验调研	10%