百度文心ERNIE4.5部署与性能白皮书:FastDeploy加速方案+全系列模型实测数据对比
文章目录
- 一、前言
- 二、文心大模型 4.5 开源系列
- 2.1 ERNIE4.5 模型系列
- 2.2 异构 MoE 与多模态技术
- 三、部署环境准备
- 3.1 部署环境配置需求
- 3.2 租用A100-80G显存服务器
- 3.3 搭建虚拟环境
- 3.3.1 搭建虚拟环境目的
- 3.3.2 搭建虚拟环境流程
- 3.4 安装 paddlepaddle-gpu 和 FastDeploy
- 四、基础模型部署
- 4.1 拉取模型常见问题(选看)
- 4.2 测试ERNIE-4.5-0.3B-Base-Paddle模型
- 4.2 测试ERNIE-4.5-21B-A3B-Base-Paddle模型(磁盘空间确保100G)
- 4.3 测试ERNIE-4.5-VL-28B-A3B-Paddle模型
- 4.4 测评总结
- 五、ERNIE-4.5、DeepSeek-V3、Qwen3主要能力对比
- 六、社区生态及其影响力
- 6.1 社区生态
- 6.2 生态影响
- 七、总体评价
文心大模型4.5是百度在人工智能领域的最新突破,代表了新一代原生多模态基础大模型的技术创新。这一模型通过融合多种模态的建模技术,极大提升了语言理解、生成、逻辑推理和记忆等方面的能力,展现出卓越的跨领域协同优化能力。特别是在图像和视频理解上,文心大模型4.5能够精准分析照片、电影截图、漫画、梗图等不同形式的视觉信息,并深度理解其中的场景、人物等关键要素。
一、前言
2025年6月30日,百度正式宣布文心大模型4.5系列开源,并选择国内领先的开源平台GitCode作为首发平台。此次开源包含了10款不同参数规模的模型,从47B参数的混合专家(MoE)模型到轻量级的0.3B稠密型模型,涵盖了文本生成、图像理解、音视频分析等多个领域的需求,能够为开发者提供广泛的技术支持。
同时,百度还同步提供了API服务,开发者可以通过飞桨星河社区、HuggingFace和百度智能云千帆平台便捷使用。通过这一开源举措,百度不仅推动了AI技术的创新发展,也为全球开发者提供了更为丰富的工具和资源,进一步加速了多模态大模型在各行各业的应用普及。
【发展历程】:
年份 | 事件 |
---|---|
2019年 | 百度启动文心大模型的研发工作,标志着百度在人工智能和多模态技术领域的战略布局。文心大模型的基础架构和初步构思逐步形成。 |
2020年 | 文心大模型进入初步研发阶段,百度通过持续的技术创新,不断优化大模型的能力,为后续版本的发布打下了坚实基础。 |
2021年 | 百度推出了文心大模型的早期版本,展示了其在自然语言处理和图像理解等领域的初步能力。此版本的发布为后续的技术发展提供了重要参考。 |
2022年 | 百度进一步提升了文心大模型的多模态处理能力,扩展了该模型在跨领域应用中的潜力,尤其是在文本生成、图像识别和情感分析等任务上取得了重要进展。 |
2023年 | 百度对文心大模型进行全面优化,推出了文心4.0版本。此版本在多模态协同理解、语义生成和自动推理方面有了质的飞跃。文心4.0的发布进一步加速了多模态AI的应用。 |
2025年3月 | 百度正式发布文心大模型4.5和深度思考模型X1,文心大模型4.5成为新一代多模态基础大模型,展示了卓越的跨模态理解与生成能力。 |
2025年5月 | 在百度AI Day活动上,技术专家吴甜详细介绍了文心大模型4.5的技术创新。文心4.5 Turbo版本的推出,进一步提升了性能并降低了计算成本。文心X1升级为X1 Turbo,增强了思维链能力。 |
2025年6月 | 百度正式开源文心大模型4.5系列,涵盖10款不同规模的模型,包括混合专家(MoE)模型和稠密型模型。开源提供了完整的预训练权重、推理代码和API服务,推动多模态AI的普及与应用。 |
【核心特点】
文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。
文心大模型4.5的能力显著提升,得益于以下关键技术:
- FlashMask 动态注意力掩码:加速大模型的动态注意力计算,显著提高长序列建模能力和训练效率,优化长文本处理和多轮交互表现。
- 多模态异构专家扩展: 基于不同模态的特点构建模态专用专家,并结合自适应模态感知损失函数,解决模态间梯度不均衡问题,增强多模态融合能力。
- 时空维度表征压缩:在时空维度上对图片和视频的语义表征进行高效压缩,大幅提高多模态数据的训练效率,提升从长视频中提取世界知识的能力。
- 基于知识点的大规模数据构建: 通过知识分级采样、数据压缩与融合、以及稀缺知识点定向合成技术,构建高知识密度的预训练数据,提升学习效率并显著降低模型幻觉。
- 基于自反馈的后训练技术:融合多种评价方式的自反馈迭代后训练技术,全面提升强化学习的稳定性和鲁棒性,极大增强预训练模型对齐人类意图的能力。
二、文心大模型 4.5 开源系列
目前,文心大模型4.5开源系列在Gitcode社区、飞桨星河社区、HuggingFace 等平台完成下载和部署。其中这里推荐采用"Gitcode"社区,具有无缝且高效的云端环境,以支持学习、使用和贡献开源项目。
【系列分析表】:
文心大模型 4.5 开源系列包括了A47B、A3B、0.3B三大分支,覆盖从超大规模多模态到轻量级文本模型的梯度分布,旨在为不同的场景需求提供灵活的解决方案。
[官方数据] :
RNIE 4.5 系列模型在多模态任务上表现强劲,尤其是视觉语言模型(VL系列),适用于需要同时处理图像和文本的任务。通过混合专家架构(MoE)和后训练优化,ERNIE 4.5在性能上有了显著提升,能处理复杂的推理任务。后训练版的模型比基础版更具灵活性和适应性,特别是在需要跨模态推理和多任务学习的实际应用中具有明显优势。
系列 | 典型参数 | 能力定位 | 场景适配 | 推荐人员 |
---|---|---|---|---|
A47B | 47B 激活(总参 424B) | 全能力多模态旗舰 | 适用于复杂跨模态推理和专业领域场景,提供强大的多模态理解和推理能力。 | 高级AI开发者、研究人员 |
A3B | 3B 激活(总参 21B/28B) | 轻量多模态 + 高效文本 | 适合垂直行业应用,特别是在边缘计算和资源有限的场景中,能够高效地处理多模态任务。 | 行业应用开发者、边缘计算工程师 |
0.3B | 0.3B 稠密参数 | 极致轻量化文本 | 特别适用于嵌入式设备和资源受限的场景,保持极高的计算效率和性能。 | 嵌入式系统开发者、设备工程师 |
其中,根据细分逻辑可以分为Base版本和进阶版本。日常使用中,选用Base版本即可,表现基础能力进行二次开放;支持复杂场景和场景化推理任务,可以选取"进阶版",运用了思维链技术(COT),能够在多模态推理中展现出“思考模式”的智能行为,增强了推理能力。
Base版本会有标识,列如:ERNIE-4.5-300B-A47B-Base,在此基础上进行自定义训练。
2.1 ERNIE4.5 模型系列
【ERNIE4.5 模型列表】:
百度同步推出了ERNIE 4.5配套开发工具,包含开源的ERNIEKit训练工具和FastDeploy推理部署工具。这一工具链的推出,旨在大幅降低开发者使用大模型的门槛,简化模型训练与推理部署流程,同时加速多模态AI技术的实际应用和落地。
在完成模型的部署同时,可以在"百度智能云帆大模型平台"调用API,在各种应用场景与落地的需求作为一大助力。其中以下是文心一言**(ERNIE Bot)** 的架构流程图(采用Mermaid代码方式)设计逻辑。
2.2 异构 MoE 与多模态技术
在文心大模型 4.5 的架构设计中,百度采用了异构 MoE(混合专家模型)和多模态融合技术,进一步提升了模型在跨模态理解与生成任务中的表现。通过这种创新的架构设计,文心 4.5 实现了更加高效和精确的多模态推理,特别是在应对复杂的场景和高维数据时,表现尤为突出。
【异构 MoE(混合专家模型)架构】:
- 文心 4.5 通过异构 MoE 的设计理念, 将不同类型的专家模型(如文本专家、图像专家、音频专家等)融合到一个统一架构中,实现了对多种模态的高效处理和协同工作。
【多模态融合技术】:
- 文心 4.5 的多模态融合技术使得模型能够处理不同模态的数据,并进行深度理解与生成。例如,它不仅能够理解文本,还能够解析图像、视频和音频数据,并结合这些信息进行推理。
【以下为资源链接】:
- 飞桨星河社区:飞桨AI Studio星河社区-人工智能学习与实训社区
- HuggingFace:https://huggingface.co/baidu
- 代码:https://github.com/PaddlePaddle/ERNIE
- 技术报告:https://ernie.baidu.com/blog/pu
三、部署环境准备
从轻量级文本模型到超大规模多模态模型,完成了文心大模型 4.5 系列的部署与性能测试。在部署过程中,依赖于FastDeploy推理部署工具包和租赁服务器,以确保模型能够高效运行。
【坑点】:由于21B及以上规模模型对计算资源和环境要求非常高,因此本地部署在大多数情况下难以满足需求。我个人的配置为4090显卡,即使如此,在尝试部署0.3B模型时,也遇到了死机的问题
这样子说明了,对于21B及以上的模型,本地部署基本上超出了个人环境的承载能力。因此我们选择了使用FastDeploy推理部署工具包结合租赁服务器的方式来完成部署。而且,大规模模型的计算需求极其庞大,通常需要部署在配置高性能服务器上,并且要通过虚拟化技术来合理分配资源,确保每个子任务和模态能够得到足够的计算支持。
如果以下部署有啥问题,可以参考下该博主池央
3.1 部署环境配置需求
【提前声明】:
安装必须在Linux系统上进行,因为NVIDIA CUDA和CUDNN在Linux系统上的支持更为完善,且性能优化更好。对于Windows和Mac系统,CUDA和CUDNN的兼容性较差,因此需要通过Docker进行容器化部署,以确保运行环境的一致性和稳定性。
部署完一个模型后,内存不够用,只能换一台新服务器。原本以为简单地用单模的A800就能解决,结果发现还得重新从头搭建虚拟环境,真是有些无力。
【部署流程图】:
- 服务器租借
- 选择云平台
- 租借A100-8G服务器(需验证CUDA兼容性)
- 配置基础运行环境
- 搭建Python虚拟环境
- 安装paddlepaddle-gpu(3.1.0版本)
- 安装FastDeploy推理框架
- 模型部署
- 从GitCode拉取模型(含权重文件)
- 执行部署指令(python infer.py)
- 进行性能测评
【资源提供】:
-
直通 "租借服务器平台"项目
-
直通 "FastDeploy"项目(参考README.md)
-
搭建"虚拟环境" (直接跟着步骤也行)
FastDeploy 是基于 PaddlePaddle 的推理工具包,专为大型语言模型和可视化语言模型设计,提供了集成核心加速技术的生产级、开箱即用的部署解决方案。
要在基于"NVIDIA CUDA GPU"的环境中安装,需要满足以下配置要求:
依赖项 | 版本要求 | 相关说明 |
---|---|---|
GPU 驱动程序 | >= 535 | 必须支持CUDA 12.3及以上版本 |
CUDA | >= 12.3 | 用于加速GPU计算 |
CUDNN | >= 9.5 | 用于深度学习中的高效卷积运算 |
Python | >= 3.10 | 推荐使用最新版本的Python |
操作系统 | Linux (X86_64 架构) | 需安装支持CUDA的Linux系统 |
3.2 租用A100-80G显存服务器
【采用平台】:AutoDL算力云 ->部署.03b,不能很好满足其他系列所需磁盘空间
【采用平台】:丹摩DAMODEL
注意:确保配置一致,比如:需要选择python3.12,而不是python3.1,太老,没有 venv 模块,apt 也没有为它准备 venv 包,所以无法部署成功。
3.3 搭建虚拟环境
在部署大型模型(如文心大模型4.5系列)时,搭建虚拟环境对于保障项目稳定性、可管理性和高效性至关重要。
3.3.1 搭建虚拟环境目的
部署大型AI模型时,往往需要安装多个依赖包和工具。如果将这些依赖安装在全局环境中,容易造成系统环境的污染,进而导致不必要的冲突和混乱。因此,搭建虚拟环境能够有效地隔离这些依赖,确保每个项目在独立的环境中运行。
【不搭建虚拟环境可能会带来以下后果】:
- 依赖冲突:多个项目可能需要不同版本的库。例如,模型A可能需要TensorFlow 2.3,而模型B可能需要TensorFlow 2.7。如果没有虚拟环境,它们将互相冲突,导致程序无法正常运行。
- 环境污染:全局环境中的多个依赖会影响其他项目的正常运行,尤其是在同一系统上开发多个AI项目时,版本不一致会导致开发、测试和部署中的问题。
- 系统不稳定:不同的依赖版本可能会影响系统工具和其他应用程序的稳定性,甚至可能导致系统崩溃或运行缓慢。
3.3.2 搭建虚拟环境流程
注意:初始化实例完毕,点击"应用 jupyTerLab"进入终端,先cd …进入到主目录再执行以下操作。
搭建虚拟环境是为了隔离各个项目的依赖,并确保它们能够在不同的环境中独立运行。以下是常用的虚拟环境工具对比:
工具 | 描述 | 适用人群/场景 |
---|---|---|
venv | Python自带的虚拟环境工具,简单易用,适合大多数用户,尤其是新手。通过venv 可以轻松创建一个干净的环境。 | 新手用户,简单项目,Python开发者 |
virtualenv | venv 的扩展,提供了更多功能,比如支持Python2和Python3的环境创建。 | 高级用户,需兼容不同Python版本的开发者 |
conda | Anaconda的包管理工具,支持跨平台和跨语言的依赖管理,特别适合科学计算和数据科学项目。 | 需要跨平台管理,数据科学,科学计算开发者 |
新手建议:对于初学者,建议从
venv
或virtualenv
入手,逐步了解虚拟环境的基本概念。我们在这里重点说明搭建虚拟环境的必要性,而不详细讨论如何使用这些工具。具体操作可以参考在线教程或官方文档。
(1).安装工具:
如果不是root账号,指令前添加sudo进行指令提权
apt update
apt install -y python3-venv
(2).创建名为"fastdeploy_venv"的虚拟环境(采用python3.12):
如果是python3.1或者更旧的版本是不支持这条指令的,选择python3.12或者3.3以上版本
python3 -m venv fastdeploy_venv
(3).激活"fastdeploy_venv"的虚拟环境
source fastdeploy_venv/bin/activate
[执行成功] :在文件目录可以查看到"fastdeploy_venv"文件
3.4 安装 paddlepaddle-gpu 和 FastDeploy
注意:在进行安装时,请务必确保在虚拟环境中操作。这样可以避免依赖冲突、版本不匹配等问题,从而降低部署过程中的潜在风险和额外成本。如果能够预防这些问题,尽量避开,以确保部署顺利高效。
在部署文心大模型4.5系列时,安装以下两个工具至关重要:
- 【paddlepaddle-gpu】:这个GPU加速版本的PaddlePaddle框架能显著提升大模型的计算效率,确保高效的推理和训练,减少资源消耗。
- 【FastDeploy】:这是专为大规模多模态模型设计的推理部署工具,它优化了模型部署流程,保证在不同平台上的推理性能和稳定性。
(1).安装 paddlepaddle-gpu:3.1.0版本(GPU加速优化)
python -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126
【问题】:直接使用主用户权限安装然安装成功,但是以 root
用户运行 pip
有风险:一是若软件包有漏洞或恶意代码,会借 root
权限破坏系统权限,致系统异常;二是易与系统包管理器冲突,引发软件功能及管理操作问题 。)
(2).安装 FastDeploy:
# Install stable release
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple# Install latest Nightly build
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
四、基础模型部署
本次部署的模型包括 ERNIE-4.5-0.3B-Base-Paddle
、ERNIE-4.5-21B-A3B-Base-Paddle
和 ERNIE-4.5-VL-28B-A3B-Paddle
。它们的主要区别在于模型的规模和应用场景:
模型名称 | 主要特点 | 适用场景 |
---|---|---|
ERNIE-4.5-0.3B-Base-Paddle | 轻量级文本模型 | 资源有限环境 |
ERNIE-4.5-21B-A3B-Base-Paddle | 强大的多模态能力 | 边缘计算、垂直行业应用 |
ERNIE-4.5-VL-28B-A3B-Paddle | 专注跨模态推理,视觉-语言任务 | 复杂视觉-语言任务 |
声明: 安装过程中对环境有严格要求,若依赖项未满足,可能会持续报错,导致调试过程较为繁琐。
注意: 使用时请避免中途通过 Ctrl+C 退出连接,若中断连接,将无法与模型正常交互。完成交互后再退出连接,以确保操作顺利进行。(“池央博主-经验之谈”)
同时引入Deepseek、豆包、GhatGPT同本次部署模型进行性能对比
【资源提供】:
- GitCode AI社区:https://ai.gitcode.com/theme
- Deepseek:https://www.deepseek.com/
- 豆包:https://www.doubao.com/chat/
- GhatGPT:https://chatgpt.com/?model=auto
4.1 拉取模型常见问题(选看)
在拉取模型的过程中,如果依赖未正确配置或虚拟环境未正确搭建,可能会导致模型拉取失败,并出现如下报错提示:
- “Can not import paddle core while this file exists”。
- “当此文件存在时,无法导入 paddle core”。
这通常表明 PaddlePaddle 的核心库无法被正确导入,建议检查环境依赖和虚拟环境配置是否完整和一致。
(1).创建虚拟环境时,确保切换到主目录。不要在数据盘目录下创建虚拟环境,而应在全局环境中进行。如果出现问题,可以释放当前示例并创建一个新的示例,记得首先切换到主目录。
(2).如果问题仍然无法解决,说明你的环境缺少 libgomp.so.1
文件,这是 GNU OpenMP 的共享库。通常,libgomp.so.1
由 libgomp1
(适用于 Debian/Ubuntu)或 libgomp
(适用于 CentOS/RHEL)软件包提供。PaddlePaddle 依赖该库进行多线程并行计算。
【安装" libgomp"流程】:
- 如果你用的是 Debian/Ubuntu 系统(大概率如此),请运行:
apt-get updateapt-get install -y libgomp1
- 如果你用的是 CentOS/RHEL,请运行:
yum install -y libgompd
4.2 测试ERNIE-4.5-0.3B-Base-Paddle模型
指令:
python -m fastdeploy.entrypoints.openai.api_server \--model baidu/ERNIE-4.5-0.3B-Base-Paddle \--port 8180 \--metrics-port 8181 \--engine-worker-queue-port 8182 \--max-model-len 32768 \--max-num-seqs 32
验证服务状态:
curl -i http://0.0.0.0:8180/health
当前终端:你已经启动了大模型服务(api_server),这个窗口要一直保持运行,不能关闭,也不要按 Ctrl + C,否则服务会停止,API无法访问。
新开一个终端:在新窗口里激活虚拟环境(如果需要),然后运行你的 test_model.py 脚本,去访问刚才启动的服务。
【终端2】:步骤举例
-
保持服务终端开启(不要动!)
-
新开一个终端
-
source fastdeploy_venv/bin/activate # 如果需要激活虚拟环境python3 test_model.py
【测试模型环节】:
主要关注以下三点:响应时间、使用的token数量以及回复结果的准确性。
prompt:盗窃《天边的光》的罪犯
推理题:神秘的画展盗窃案
背景故事:某个知名的艺术画展在市中心的“白云画廊”举行,画展上展示了多幅艺术品,吸引了不少艺术爱好者和投资者前来参观。就在画展的最后一天,展馆内的一幅价值连城的名画《天边的光》被盗走了。警方接到报警后,迅速赶到现场,并开始进行调查。根据调查,现场留下了几份重要的线索,然而,这起案件并非简单的盗窃案。调查发现,画廊内部的人物关系错综复杂,每个人似乎都有某些秘密,且有很多令人困惑的地方。以下是警方整理的关键信息。人物介绍:唐娜(艺术展览策展人):负责策划和组织这次画展。唐娜曾是艺术学院的教授,近期被曝出有经济困难,且曾与一位知名艺术品商人有过争执。李强(画廊保安):是这次画展的保安之一。李强性格直爽,但多次被同事举报为工作不认真。他曾在展馆内夜晚巡逻时曾反复与其他人发生争执。赵婷(画廊的画家):她是画廊内最有声望的艺术家之一,展出的一幅《暮色森林》被大肆宣传。她与唐娜有着不睦的合作关系,曾表示不满画廊的展览安排。赵婷的作品在画展上出售得相当火爆,甚至超过了《天边的光》。王博(艺术品投资人):王博是一个富有的艺术品投资人,他与唐娜有着长期的合作关系。王博也参与了这次画展的部分投资,他对《天边的光》情有独钟,曾在多次私下向唐娜提出购买这幅画。艾琳(画廊经理):负责画廊的日常运营和财务。艾琳与唐娜是朋友关系,但她似乎知道唐娜很多不为人知的秘密。周凯(画廊的维修工):负责画廊内设施的维护。他是个寡言少语的人,但有传言称他曾与某个画展参展者有过经济交易,且他的技术十分高超,能迅速进入到画廊内的多个区域。案件线索:
失窃的画作《天边的光》:这幅画的价值非常高,几乎是整个画展的亮点之一。画作失踪的时间被初步锁定在画展的最后一小时,但画作不在任何的展示区域,而是被发现藏匿在一个不常使用的存储室中。监控录像:监控录像显示,案发当天的最后一小时里,画廊内的几个人物都曾进入存储室,但每个人的行动都有些许不对劲:唐娜曾在接近午夜时进入存储室,但她声称自己进去只是为了取一些展品的资料。李强的监控显示,他在案发当天的晚上曾多次巡视画展的外部区域,但他声称没有进入存储室。赵婷的监控显示她进出过存储室,但她解释说她是在检查自己的作品是否完好。王博的监控显示,他在案发前最后一小时内曾进入过存储室,但他坚称自己去只是为了向唐娜询问艺术品的相关问题。艾琳的监控显示,她曾进入存储室,但她表示自己进去是为了处理一些财务文件。周凯的监控显示他曾进入存储室,但他解释说自己是去检查一下储藏室的电力设施。指纹和DNA证据:警方在存储室内找到了一些不属于任何人类的指纹和微量的DNA,令案件变得更加复杂。周凯的异常:周凯曾被目击到深夜偷偷进入某个装有工具的储物间,而这个储物间离失窃现场很近。周凯对于自己的行为没有明确解释。
谁才是凶手?
[执行代码]:
import requests
import json
import time
from datetime import timedeltadef main():# 设置API端点server_ip = "127.0.0.1" # 本地测试用127.0.0.1,公网访问用服务器IPurl = f"http://{server_ip}:8180/v1/chat/completions"# 设置请求头headers = {"Content-Type": "application/json"}# 构建请求体data = {"model": "ERNIE-4.5-0.3B-Base-Paddle", "messages": [{"role": "user","content": """推理题:神秘的画展盗窃案
背景故事:某个知名的艺术画展在市中心的“白云画廊”举行,画展上展示了多幅艺术品,吸引了不少艺术爱好者和投资者前来参观。就在画展的最后一天,展馆内的一幅价值连城的名画《天边的光》被盗走了。警方接到报警后,迅速赶到现场,并开始进行调查。根据调查,现场留下了几份重要的线索,然而,这起案件并非简单的盗窃案。调查发现,画廊内部的人物关系错综复杂,每个人似乎都有某些秘密,且有很多令人困惑的地方。以下是警方整理的关键信息。人物介绍:唐娜(艺术展览策展人):负责策划和组织这次画展。唐娜曾是艺术学院的教授,近期被曝出有经济困难,且曾与一位知名艺术品商人有过争执。李强(画廊保安):是这次画展的保安之一。李强性格直爽,但多次被同事举报为工作不认真。他曾在展馆内夜晚巡逻时曾反复与其他人发生争执。赵婷(画廊的画家):她是画廊内最有声望的艺术家之一,展出的一幅《暮色森林》被大肆宣传。她与唐娜有着不睦的合作关系,曾表示不满画廊的展览安排。赵婷的作品在画展上出售得相当火爆,甚至超过了《天边的光》。王博(艺术品投资人):王博是一个富有的艺术品投资人,他与唐娜有着长期的合作关系。王博也参与了这次画展的部分投资,他对《天边的光》情有独钟,曾在多次私下向唐娜提出购买这幅画。艾琳(画廊经理):负责画廊的日常运营和财务。艾琳与唐娜是朋友关系,但她似乎知道唐娜很多不为人知的秘密。周凯(画廊的维修工):负责画廊内设施的维护。他是个寡言少语的人,但有传言称他曾与某个画展参展者有过经济交易,且他的技术十分高超,能迅速进入到画廊内的多个区域。案件线索:
失窃的画作《天边的光》:这幅画的价值非常高,几乎是整个画展的亮点之一。画作失踪的时间被初步锁定在画展的最后一小时,但画作不在任何的展示区域,而是被发现藏匿在一个不常使用的存储室中。监控录像:监控录像显示,案发当天的最后一小时里,画廊内的几个人物都曾进入存储室,但每个人的行动都有些许不对劲:唐娜曾在接近午夜时进入存储室,但她声称自己进去只是为了取一些展品的资料。李强的监控显示,他在案发当天的晚上曾多次巡视画展的外部区域,但他声称没有进入存储室。赵婷的监控显示她进出过存储室,但她解释说她是在检查自己的作品是否完好。王博的监控显示,他在案发前最后一小时内曾进入过存储室,但他坚称自己去只是为了向唐娜询问艺术品的相关问题。艾琳的监控显示,她曾进入存储室,但她表示自己进去是为了处理一些财务文件。周凯的监控显示他曾进入存储室,但他解释说自己是去检查一下储藏室的电力设施。指纹和DNA证据:警方在存储室内找到了一些不属于任何人类的指纹和微量的DNA,令案件变得更加复杂。周凯的异常:周凯曾被目击到深夜偷偷进入某个装有工具的储物间,而这个储物间离失窃现场很近。周凯对于自己的行为没有明确解释。谁才是凶手?"""}],"temperature": 0.7, # 可选参数:控制响应随机性"max_tokens": 2000 # 可选参数:最大生成长度}try:# 记录请求开始时间start_time = time.time()# 发送请求response = requests.post(url, headers=headers, data=json.dumps(data))# 记录请求结束时间并计算耗时end_time = time.time()elapsed_time = end_time - start_time# 检查响应状态response.raise_for_status()# 解析响应result = response.json()# 打印响应结果print(f"状态码: {response.status_code}")print(f"响应耗时: {timedelta(seconds=elapsed_time)}")# 提取输出Token数量(如果API返回)token_usage = result.get("usage", {})prompt_tokens = token_usage.get("prompt_tokens", "N/A")completion_tokens = token_usage.get("completion_tokens", "N/A")total_tokens = token_usage.get("total_tokens", "N/A")print(f"Token使用: 输入[{prompt_tokens}] | 输出[{completion_tokens}] | 总计[{total_tokens}]")# 打印响应内容print("响应内容:")print(json.dumps(result, indent=2, ensure_ascii=False))# 提取并打印AI的回复内容if "choices" in result and len(result["choices"]) > 0:ai_message = result["choices"][0]["message"]["content"]print("\n文心4.5大模型回复:")print(ai_message)except requests.exceptions.ConnectionError:print(f"连接错误: 无法访问 {url},请确保服务已启动且端口开放")except requests.exceptions.RequestException as e:print(f"请求错误: {e}")except json.JSONDecodeError:print(f"JSON解析错误,原始响应: {response.text}")except Exception as e:print(f"发生未知错误: {e}")if __name__ == "__main__":main()
[返回结果]:
(fastdeploy_venv) root@autodl-container-d293479255-d7bca6a2:~# python3 test_model.py
状态码: 200
响应耗时: 0:00:02.636548
Token使用: 输入[808] | 输出[205] | 总计[1013]
响应内容:
{"id": "chatcmpl-9efd9bf7-ac22-4fa0-b8d4-3e3417573423","object": "chat.completion","created": 1752120227,"model": "ERNIE-4.5-0.3B-Base-Paddle","choices": [{"index": 0,"message": {"role": "assistant","content": "根据案件线索和监控录像,我们可以通过分析这些信息来推断出谁是凶手。\n\n首先,我们注意到周凯的异常行为,即他在案发前最后一小时内曾进入存储室,但他的行为与任何人类无关。这表明周凯可能是凶手之一。\n\n其次,警方在案发当天的最后一小时里,发现了一些不属于任何人类的指纹和微量的DNA。这表明周凯在案发前可能已经发现了画廊内的一些隐藏人员。\n\n最后,我们注意到赵婷的监控显示她进出过存储室,但她解释说她是在检查自己的作品是否完好。这表明赵婷可能是凶手之一。\n\n综合以上分析,我们可以得出结论,凶手是赵婷。赵婷与唐娜有着不睦的合作关系,曾表示不满画廊的展览安排。赵婷在画廊内的工作表现也非常出色,她与唐娜的关系也十分亲密。因此,赵婷可能是凶手之一。","reasoning_content": null,"tool_calls": null},"finish_reason": "stop"}],"usage": {"prompt_tokens": 808,"total_tokens": 1013,"completion_tokens": 205,"prompt_tokens_details": {"cached_tokens": 0}}
}文心4.5大模型回复:
根据案件线索和监控录像,我们可以通过分析这些信息来推断出谁是凶手。首先,我们注意到周凯的异常行为,即他在案发前最后一小时内曾进入存储室,但他的行为与任何人类无关。这表明周凯可能是凶手之一。其次,警方在案发当天的最后一小时里,发现了一些不属于任何人类的指纹和微量的DNA。这表明周凯在案发前可能已经发现了画廊内的一些隐藏人员。最后,我们注意到赵婷的监控显示她进出过存储室,但她解释说她是在检查自己的作品是否完好。这表明赵婷可能是凶手之一。综合以上分析,我们可以得出结论,凶手是赵婷。赵婷与唐娜有着不睦的合作关系,曾表示不满画廊的展览安排。赵婷在画廊内的工作表现也非常出色,她与唐娜的关系也十分亲密。因此,赵婷可能是凶手之一。
【评价】:
文心4.5 0.3B模型在推理任务中的表现有限,尤其是在处理复杂案件时。尽管它能迅速生成结论,但缺乏深度和逻辑严谨性。模型的推理通常较为表面,无法有效整合多方面的证据,且缺乏对不同证据的权重评估。此外,推理过程中的信息整合不够全面,导致结论显得简单化,缺少对复杂情境的全面分析和反事实推理能力。总的来说,文心4.5 0.3B适合基础推理任务,但在面对更复杂的推理情境时,其表现明显受到局限。
【正确答案】:周凯 。0.3b推理错误
4.2 测试ERNIE-4.5-21B-A3B-Base-Paddle模型(磁盘空间确保100G)
21B模型:专注文本领域
【注意】:一定要在"虚拟环境"下,进行部署。Ctrl+C退出端口连接,同时拉取21B模型。之前的步骤重新来
【更新平台】:之前那个不够磁盘空间
【注意事项】:cd到主目录,然后搭建虚拟环境
指令:
python -m fastdeploy.entrypoints.openai.api_server \--model baidu/ERNIE-4.5-21B-A3B-Base-Paddle \--port 8180 \--metrics-port 8181 \--engine-worker-queue-port 8182 \--max-model-len 32768 \--max-num-seqs 32
【测试模型环节】:
prompt1:盗窃《天边的光》的罪犯
import requests
import json
import time
from datetime import timedeltadef main():# 设置API端点server_ip = "127.0.0.1" # 本地测试用127.0.0.1,公网访问用服务器IPurl = f"http://{server_ip}:8180/v1/chat/completions"# 设置请求头headers = {"Content-Type": "application/json"}# 构建请求体data = {"model": "ERNIE-4.5-0.3B-Base-Paddle", "messages": [{"role": "user","content": """推理题:神秘的画展盗窃案
背景故事:某个知名的艺术画展在市中心的“白云画廊”举行,画展上展示了多幅艺术品,吸引了不少艺术爱好者和投资者前来参观。就在画展的最后一天,展馆内的一幅价值连城的名画《天边的光》被盗走了。警方接到报警后,迅速赶到现场,并开始进行调查。根据调查,现场留下了几份重要的线索,然而,这起案件并非简单的盗窃案。调查发现,画廊内部的人物关系错综复杂,每个人似乎都有某些秘密,且有很多令人困惑的地方。以下是警方整理的关键信息。人物介绍:唐娜(艺术展览策展人):负责策划和组织这次画展。唐娜曾是艺术学院的教授,近期被曝出有经济困难,且曾与一位知名艺术品商人有过争执。李强(画廊保安):是这次画展的保安之一。李强性格直爽,但多次被同事举报为工作不认真。他曾在展馆内夜晚巡逻时曾反复与其他人发生争执。赵婷(画廊的画家):她是画廊内最有声望的艺术家之一,展出的一幅《暮色森林》被大肆宣传。她与唐娜有着不睦的合作关系,曾表示不满画廊的展览安排。赵婷的作品在画展上出售得相当火爆,甚至超过了《天边的光》。王博(艺术品投资人):王博是一个富有的艺术品投资人,他与唐娜有着长期的合作关系。王博也参与了这次画展的部分投资,他对《天边的光》情有独钟,曾在多次私下向唐娜提出购买这幅画。艾琳(画廊经理):负责画廊的日常运营和财务。艾琳与唐娜是朋友关系,但她似乎知道唐娜很多不为人知的秘密。周凯(画廊的维修工):负责画廊内设施的维护。他是个寡言少语的人,但有传言称他曾与某个画展参展者有过经济交易,且他的技术十分高超,能迅速进入到画廊内的多个区域。案件线索:
失窃的画作《天边的光》:这幅画的价值非常高,几乎是整个画展的亮点之一。画作失踪的时间被初步锁定在画展的最后一小时,但画作不在任何的展示区域,而是被发现藏匿在一个不常使用的存储室中。监控录像:监控录像显示,案发当天的最后一小时里,画廊内的几个人物都曾进入存储室,但每个人的行动都有些许不对劲:唐娜曾在接近午夜时进入存储室,但她声称自己进去只是为了取一些展品的资料。李强的监控显示,他在案发当天的晚上曾多次巡视画展的外部区域,但他声称没有进入存储室。赵婷的监控显示她进出过存储室,但她解释说她是在检查自己的作品是否完好。王博的监控显示,他在案发前最后一小时内曾进入过存储室,但他坚称自己去只是为了向唐娜询问艺术品的相关问题。艾琳的监控显示,她曾进入存储室,但她表示自己进去是为了处理一些财务文件。周凯的监控显示他曾进入存储室,但他解释说自己是去检查一下储藏室的电力设施。指纹和DNA证据:警方在存储室内找到了一些不属于任何人类的指纹和微量的DNA,令案件变得更加复杂。周凯的异常:周凯曾被目击到深夜偷偷进入某个装有工具的储物间,而这个储物间离失窃现场很近。周凯对于自己的行为没有明确解释。谁才是凶手?"""}],"temperature": 0.7, # 可选参数:控制响应随机性"max_tokens": 2000 # 可选参数:最大生成长度}try:# 记录请求开始时间start_time = time.time()# 发送请求response = requests.post(url, headers=headers, data=json.dumps(data))# 记录请求结束时间并计算耗时end_time = time.time()elapsed_time = end_time - start_time# 检查响应状态response.raise_for_status()# 解析响应result = response.json()# 打印响应结果print(f"状态码: {response.status_code}")print(f"响应耗时: {timedelta(seconds=elapsed_time)}")# 提取输出Token数量(如果API返回)token_usage = result.get("usage", {})prompt_tokens = token_usage.get("prompt_tokens", "N/A")completion_tokens = token_usage.get("completion_tokens", "N/A")total_tokens = token_usage.get("total_tokens", "N/A")print(f"Token使用: 输入[{prompt_tokens}] | 输出[{completion_tokens}] | 总计[{total_tokens}]")# 打印响应内容print("响应内容:")print(json.dumps(result, indent=2, ensure_ascii=False))# 提取并打印AI的回复内容if "choices" in result and len(result["choices"]) > 0:ai_message = result["choices"][0]["message"]["content"]print("\n文心4.5大模型回复:")print(ai_message)except requests.exceptions.ConnectionError:print(f"连接错误: 无法访问 {url},请确保服务已启动且端口开放")except requests.exceptions.RequestException as e:print(f"请求错误: {e}")except json.JSONDecodeError:print(f"JSON解析错误,原始响应: {response.text}")except Exception as e:print(f"发生未知错误: {e}")if __name__ == "__main__":main()
[回答]:
状态码: 200
响应耗时: 0:00:16.822580
Token使用: 输入[808] | 输出[450] | 总计[1258]
响应内容:
{"id": "chatcmpl-c0ff3f9e-9023-44ed-96af-984975b0c0b9","object": "chat.completion","created": 1752126202,"model": "ERNIE-4.5-0.3B-Base-Paddle","choices": [{"index": 0,"message": {"role": "assistant","content": "根据案件背景和线索,结合人物关系和证据分析,凶手最有可能是**周凯**。以下是推理过程:\n\n---\n\n### **关键证据与矛盾点**\n1. **监控录像的异常** \n - 所有人声称进入存储室的原因合理,但**周凯的监控显示他进入存储室**,且他声称去检查电力设施,但**未留下任何指纹或DNA**(存储室内只有非人类痕迹)。 \n - 监控显示他深夜进入装有工具的储物间,与盗窃行为高度相关。\n\n2. **技术能力与动机** \n - 周凯是画廊维修工,技术高超,能快速进入多个区域。 \n - 他与参展者(如赵婷)有传言的“经济交易”,可能通过盗窃获利。\n\n3. **其他人物的可疑点** \n - **唐娜**:经济困难,与商人争执,但监控显示她进入存储室,动机明确,但无直接证据。 \n - **赵婷**:作品卖得比《天边的光》好,可能因嫉妒而盗窃,但监控显示她进入存储室,动机不足。 \n - **王博**:对《天边的光》有特殊兴趣,但监控显示他进入存储室,动机存疑。 \n - **李强**:工作不认真,但监控显示他未进入存储室,且无直接关联。 \n - **艾琳**:知道唐娜的秘密,但无盗窃动机。\n\n4. **非人类痕迹的暗示** \n - 存储室内只有非人类指纹和DNA,说明凶手可能是**动物或机器人**,而周凯作为维修工,可能利用工具伪造痕迹。\n\n---\n\n### **结论**\n周凯的技术能力、深夜进入储物间的行为、与参展者的传言,以及监控录像中未留下指纹和DNA的矛盾,均指向他作为凶手的可能性最大。其他人物虽有动机,但缺乏直接证据。","reasoning_content": null,"tool_calls": null},"finish_reason": "stop"}],"usage": {"prompt_tokens": 808,"total_tokens": 1258,"completion_tokens": 450,"prompt_tokens_details": {"cached_tokens": 0}}
}文心4.5大模型回复:
根据案件背景和线索,结合人物关系和证据分析,凶手最有可能是**周凯**。以下是推理过程:---### **关键证据与矛盾点**
1. **监控录像的异常** - 所有人声称进入存储室的原因合理,但**周凯的监控显示他进入存储室**,且他声称去检查电力设施,但**未留下任何指纹或DNA**(存储室内只有非人类痕迹)。 - 监控显示他深夜进入装有工具的储物间,与盗窃行为高度相关。2. **技术能力与动机** - 周凯是画廊维修工,技术高超,能快速进入多个区域。 - 他与参展者(如赵婷)有传言的“经济交易”,可能通过盗窃获利。3. **其他人物的可疑点** - **唐娜**:经济困难,与商人争执,但监控显示她进入存储室,动机明确,但无直接证据。 - **赵婷**:作品卖得比《天边的光》好,可能因嫉妒而盗窃,但监控显示她进入存储室,动机不足。 - **王博**:对《天边的光》有特殊兴趣,但监控显示他进入存储室,动机存疑。 - **李强**:工作不认真,但监控显示他未进入存储室,且无直接关联。 - **艾琳**:知道唐娜的秘密,但无盗窃动机。4. **非人类痕迹的暗示** - 存储室内只有非人类指纹和DNA,说明凶手可能是**动物或机器人**,而周凯作为维修工,可能利用工具伪造痕迹。---### **结论**
周凯的技术能力、深夜进入储物间的行为、与参展者的传言,以及监控录像中未留下指纹和DNA的矛盾,均指向他作为凶手的可能性最大。其他人物虽有动机,但缺乏直接证据。
【评价】:
21B版本的推理明显优于0.3B版本,尤其是在处理复杂案件时,它能够进行更加深入和系统的分析,整合多方面的证据和背景信息,给出更有根据的结论。0.3B版本虽然在生成推理时较为迅速,但显然在推理深度和准确性上存在不足。
prompt2:多轮对话测试
import requests
import json
import time
from datetime import timedeltadef stream_chat_test():"""测试模型在不同领域的连续对话能力"""server_ip = "127.0.0.1"url = f"http://{server_ip}:8180/v1/chat/completions"headers = {"Content-Type": "application/json"}# 定义多轮对话问题(科学、历史、文学)messages = [# 科学问题{"role": "user", "content": "解释什么是量子纠缠,为什么它被认为是量子力学的一个重要特性?"},# 历史问题{"role": "user", "content": "请简述明朝灭亡的原因,并分析其中的主要因素。"},# 文学分析{"role": "user", "content": "分析鲁迅《狂人日记》中的'我'与'疯子'之间的关系,揭示其深层含义。"}]for i, message in enumerate(messages):print(f"\n=== 第 {i+1} 轮对话 [{['科学', '历史', '文学'][i]}] ===")print(f"用户: {message['content']}")data = {"model": "ERNIE-4.5-0.3B-Base-Paddle","messages": messages[:i+1],"temperature": 0.5, # 降低随机性,提高准确性"max_tokens": 2000,"stream": True}try:start_time = time.time()response = requests.post(url, headers=headers, data=json.dumps(data), stream=True)response.raise_for_status()print("AI回复:") full_content = ""for chunk in response.iter_lines():if chunk:chunk_data = chunk.decode('utf-8').lstrip('data: ')if chunk_data == '[DONE]':breaktry:chunk_json = json.loads(chunk_data)content = chunk_json["choices"][0]["delta"].get("content", "")full_content += contentprint(content, end='', flush=True)except Exception as e:print(f"\n解析错误: {e}")print(f"原始数据: {chunk_data}")print() # 换行end_time = time.time()print(f"响应耗时: {timedelta(seconds=end_time - start_time)}")print(f"回复长度: {len(full_content)} 字符")# 将回复添加到消息列表中messages.append({"role": "assistant", "content": full_content})except Exception as e:print(f"请求错误: {e}")if __name__ == "__main__":stream_chat_test()
[返回结果]:
=== 第 1 轮对话 [科学] ===
用户: 解释什么是量子纠缠,为什么它被认为是量子力学的一个重要特性?
AI回复:
量子纠缠是量子力学中的一个重要概念,它描述了两个或多个量子系统之间的非经典关联。当两个或多个量子系统处于纠缠态时,它们之间的状态是相互依赖的,即一个系统的状态会立即影响到另一个系统的状态,即使它们之间的距离很远。
量子纠缠被认为是量子力学的一个重要特性,因为它揭示了量子系统之间的非经典关联,这种关联是经典物理学无法解释的。量子纠缠在量子计算、量子通信和量子密码学等领域中有着广泛的应用。例如,在量子计算中,量子纠缠可以用来实现量子并行计算和量子纠错,从而提高计算效率和可靠性。在量子通信中,量子纠缠可以用来实现量子密钥分发和量子隐形传态,从而实现安全的信息传输。在量子密码学中,量子纠缠可以用来实现量子密钥分发和量子认证,从而提高信息的安全性。
总之,量子纠缠是量子力学中的一个重要概念,它揭示了量子系统之间的非经典关联,为量子计算、量子通信和量子密码学等领域的发展提供了重要的理论基础。
响应耗时: 0:00:07.890751
回复长度: 395 字符=== 第 2 轮对话 [历史] ===
用户: 请简述明朝灭亡的原因,并分析其中的主要因素。
AI回复:
明朝灭亡的原因是多方面的,主要因素包括:
1. 政治腐败:明朝后期政治腐败严重,官员贪污受贿,导致国家财政困难,社会动荡不安。
2. 军事失败:明朝后期军事失败,多次遭受外族入侵,导致国家领土丧失,人民生活困苦。
3. 经济衰退:明朝后期经济衰退,农业生产下降,商业贸易萎缩,导致国家财政困难,人民生活困难。
4. 社会动荡:明朝后期社会动荡不安,农民起义频繁,社会矛盾激化,导致国家政治不稳定。
5. 自然灾害:明朝后期自然灾害频繁,如旱灾、水灾、地震等,导致农业生产下降,人民生活困难。
综上所述,明朝灭亡的原因是多方面的,主要因素包括政治腐败、军事失败、经济衰退、社会动荡和自然灾害等。
响应耗时: 0:00:06.715482
回复长度: 296 字符=== 第 3 轮对话 [文学] ===
用户: 分析鲁迅《狂人日记》中的'我'与'疯子'之间的关系,揭示其深层含义。
AI回复:
《狂人日记》中的“我”与“疯子”之间的关系是复杂而微妙的,它们之间存在着一种相互映照、相互揭示的关系。
首先,“我”作为小说中的叙述者,是一个清醒而理性的存在。他通过日记的形式,记录下了自己对于周围世界的观察和思考,展现出了对封建礼教和家族制度的深刻批判。然而,在“我”的理性思考背后,却隐藏着一种无法言说的恐惧和不安,这种恐惧和不安正是来自于“疯子”的存在。
其次,“疯子”作为小说中的另一个重要角色,是一个被社会所排斥和遗忘的存在。他的言行举止常常被视为怪异和不可理喻,因此被人们所忽视和遗忘。然而,正是这个“疯子”的存在,让“我”感受到了自己内心的恐惧和不安,也让“我”开始反思自己对于周围世界的认知和判断。
因此,“我”与“疯子”之间的关系是一种相互映照、相互揭示的关系。他们的存在和言行举止,不仅揭示了封建礼教和家族制度的荒谬和残酷,也揭示了人类内心的恐惧和不安。同时,这种关系也暗示了人类对于自我认知和判断的局限性和不确定性,提醒人们要时刻保持清醒和理性,不要被表面的现象所迷惑,要深入思考和探索事物的本质和真相。
响应耗时: 0:00:10.811221
回复长度: 463 字符
Traceback (most recent call last):File "/root/test2_model.py", line 75, in <module>stream_chat_test()File "/root/test2_model.py", line 28, in stream_chat_testprint(f"\n=== 第 {i+1} 轮对话 [{['科学', '历史', '文学'][i]}] ===")~~~~~~~~~~~~~~~~~~~~~~~~^^^
IndexError: list index out of range
轮次 | 对话主题 | 用户提问 | AI回复 | 响应耗时 | 回复长度 |
---|---|---|---|---|---|
第 1 轮 | 科学 | 解释什么是量子纠缠,为什么它被认为是量子力学的一个重要特性? | 量子纠缠是量子力学中的一个重要概念,它描述了两个或多个量子系统之间的非经典关联…量子纠缠在量子计算、量子通信和量子密码学等领域中有着广泛的应用。 | 0:00:07.89 | 395 字符 |
第 2 轮 | 历史 | 请简述明朝灭亡的原因,并分析其中的主要因素。 | 明朝灭亡的原因是多方面的,主要因素包括:政治腐败、军事失败、经济衰退、社会动荡和自然灾害等。 | 0:00:06.72 | 296 字符 |
第 3 轮 | 文学 | 分析鲁迅《狂人日记》中的’我’与’疯子’之间的关系,揭示其深层含义。 | 《狂人日记》中的“我”与“疯子”之间的关系是复杂而微妙的…揭示了人类内心的恐惧和不安,同时提醒人们要深入思考和探索事物的本质。 | 0:00:10.81 | 463 字符 |
4.3 测试ERNIE-4.5-VL-28B-A3B-Paddle模型
该模型是多模态模型,支持图像和文本处理,并具备深度思考能力。请注意,单卡部署时至少需要 80GB 的 GPU 显存。
【注意】:部署的时间可以会很久,需要耐心等待。
指令:
python -m fastdeploy.entrypoints.openai.api_server \--model baidu/ERNIE-4.5-VL-28B-A3B-Paddle \--port 8180 \--metrics-port 8181 \--engine-worker-queue-port 8182 \--max-model-len 32768 \--enable-mm \--reasoning-parser ernie-45-vl \--max-num-seqs 32
【温馨提示】:需要等待30分钟左右,完成部署。
【测试模型环节】:
prompt1:盗窃《天边的光》的罪犯
[回答] :
状态码: 200
响应耗时: 0:00:20.824580
Token使用: 输入[808] | 输出[450] | 总计[1258]
响应内容:
{"id": "chatcmpl-c0ff3f9e-9023-44ed-96af-984975b0c0b9","object": "chat.completion","created": 1752126202,"model": "ERNIE-4.5-0.3B-Base-Paddle","choices": [{"index": 0,"message": {"role": "assistant","content": "根据案件背景和线索,结合人物关系和证据分析,凶手最有可能是**周凯**。以下是推理过程:\n\n---\n\n### **关键证据与矛盾点**\n1. **监控录像的异常** \n - 所有人声称进入存储室的原因合理,但**周凯的监控显示他进入存储室**,且他声称去检查电力设施,但**未留下任何指纹或DNA**(存储室内只有非人类痕迹)。 \n - 监控显示他深夜进入装有工具的储物间,与盗窃行为高度相关。\n\n2. **技术能力与动机** \n - 周凯是画廊维修工,技术高超,能快速进入多个区域。 \n - 他与参展者(如赵婷)有传言的“经济交易”,可能通过盗窃获利。\n\n3. **其他人物的可疑点** \n - **唐娜**:经济困难,与商人争执,但监控显示她进入存储室,动机明确,但无直接证据。 \n - **赵婷**:作品卖得比《天边的光》好,可能因嫉妒而盗窃,但监控显示她进入存储室,动机不足。 \n - **王博**:对《天边的光》有特殊兴趣,但监控显示他进入存储室,动机存疑。 \n - **李强**:工作不认真,但监控显示他未进入存储室,且无直接关联。 \n - **艾琳**:知道唐娜的秘密,但无盗窃动机。\n\n4. **非人类痕迹的暗示** \n - 存储室内只有非人类指纹和DNA,说明凶手可能是**动物或机器人**,而周凯作为维修工,可能利用工具伪造痕迹。\n\n---\n\n### **结论**\n周凯的技术能力、深夜进入储物间的行为、与参展者的传言,以及监控录像中未留下指纹和DNA的矛盾,均指向他作为凶手的可能性最大。其他人物虽有动机,但缺乏直接证据。","reasoning_content": null,"tool_calls": null},"finish_reason": "stop"}],"usage": {"prompt_tokens": 808,"total_tokens": 1258,"completion_tokens": 450,"prompt_tokens_details": {"cached_tokens": 0}}
}文心4.5大模型回复:
根据案件背景和线索,结合人物关系和证据分析,凶手最有可能是**周凯**。以下是推理过程:---### **关键证据与矛盾点**1. **监控录像的异常**- **周凯的进入**:所有人声称进入存储室的原因看似合理,但周凯的监控录像显示他进入存储室的时间与其他人不同。根据视频记录,周凯进入存储室时并没有与任何人接触,他声称自己是去检查电力设施,但监控并未捕捉到相关的维修操作。此外,存储室内并没有留下周凯的指纹或DNA,只有非人类的痕迹,这非常不寻常。存储室内存在的这些非人类痕迹可能是由于周凯利用一些工具或设备制造的伪证,目的是迷惑调查人员,使自己看似无关。- **异常活动的时间点**:更令人怀疑的是,周凯在案发当天的深夜时分进入了一个存放工具的储物间,且没有任何合理的解释来支撑这一行为。这个时间点非常敏感,与盗窃行为高度契合。存储室是一个管理重要物品的地方,任何异常的进入都可能与案件相关。
2. **技术能力与动机**- **周凯的专业背景**:周凯是画廊的维修工,长期负责设备的维护和检查工作,熟悉画廊的每个角落,并且拥有相应的技能和工具,能够轻松地进入任何区域。他具备通过伪装和修改现场证据的能力,这为他实施犯罪提供了便利。作为维修工,他也知道画廊的安保措施,因此能合理规避监控系统的探测,避免留下直接证据。- **与参展者的关系**:周凯与某些参展者(尤其是赵婷)有着“经济交易”的传闻,表明他们可能通过非法手段进行财务往来。这种背景增加了他动机的可信性,特别是在艺术作品和画廊资金方面的潜在利益。通过盗窃,他可能试图从中获利,尤其是涉及到画作的高价值和珍贵性。
3. **其他人物的可疑点**- **唐娜**:唐娜因经济困难与商人发生过争执,这可能为她提供了犯罪动机。监控显示她曾进入存储室,但她的动机较为明显并且有明确的证据,但缺乏直接指向她的证据,例如没有发现她携带重要物品或者其他与案件相关的物理证据。因此,尽管她的动机较为明显,但她并没有直接证据证实她是凶手。- **赵婷**:赵婷的作品在展览中取得了相当不错的成绩,这引发了对她的嫉妒行为的推测。她可能因为作品的成功而产生了盗窃的动机,尤其是在对《天边的光》画作的争议上。然而,尽管监控显示她曾进入存储室,但她进入的时间和行为可以通过自我辩解来合理化(例如检查作品的完好性)。因此,尽管她有动机,但缺乏更多直接证据来指向她为罪犯。- **王博**:王博对《天边的光》作品表现出极大的兴趣,然而监控显示他也曾进入存储室,但他没有明显的经济动机或其他可疑行为。对该作品的兴趣本身并不足以构成犯罪动机,因此王博的嫌疑相对较低。- **李强**:李强的工作态度不认真,且监控显示他并未进入存储室,且在整个案件中与重要证据没有任何直接关联。因此,李强的嫌疑几乎可以排除。- **艾琳**:艾琳与唐娜有一些未公开的秘密,但她的行为没有表现出任何盗窃动机。虽然她知晓一些画廊内部的秘密,但从案件的直接证据来看,艾琳似乎与案件无关。
4. **非人类痕迹的暗示**- 存储室内唯一的指纹和DNA并非来自任何人类,这一发现极为重要,表明凶手可能不是人类。更令人困惑的是,指纹和DNA的来源似乎不符合常规调查推测,它们可能来自某种机械设备、机器人或动物。周凯作为维修工,具备利用工具或机器人来伪造现场痕迹的能力。假如他与某种机器设备或机器人有接触,那么这些非人类痕迹的出现也能得到合理解释。------### **结论**通过综合上述证据和分析,周凯是最有可能的嫌疑人。首先,他的技术能力和对画廊内部环境的熟悉程度使他能够有效地执行盗窃行为并伪造现场证据。其次,周凯与其他参展者之间的潜在经济利益纠葛,增加了他的犯罪动机。监控录像中,他深夜进入存储间,且没有留下任何指纹或DNA,使得他在案件中的嫌疑愈加明显。虽然其他嫌疑人如赵婷、唐娜等有一定的动机,但缺乏直接证据。因此,周凯作为凶手的可能性最大。
prompt2:图片分析:处于哪个山脉
[代码使用]:
image_base64 = image_to_base64(image_path)data = {"model": "ERNIE-4.5-VL-28B-A3B-Paddle", "messages": [{"role": "user","content": [{"type": "text","text": "请详细解读这张图片,猜测目前照片下方的山脉是属于哪个山脉"},{"type": "image","data": image_base64}]}],"temperature": 0.7, "max_tokens": 2000 }
[回答] :
状态码: 200
响应耗时: 0:00:28.822580
Token使用: 输入[115] | 输出[1185] | 总计[1400]响应内容:image_base64 = image_to_base64(image_path)data = {"model": "ERNIE-4.5-VL-28B-A3B-Paddle", "messages": [{"role": "user","content": [{"type": "text","text": "请详细解读这张图片,猜测目前照片下方的山脉是属于哪个山脉"},{"type": "image","data": image_base64}]}],"temperature": 0.7, "max_tokens": 2000 }文心4.5大模型回复:---根据背景和线索,结合图像的地理特征、飞机注册号以及季节性特征,以下是推理过程:------### **1. 飞机识别与型号分析**通过查询飞机注册号 B-5280,文心4.5大模型成功识别出这架飞机为厦门航空的波音737-75C客机。- **型号识别**:波音737-75C属于波音737-700系列,而“5C”只是厦门航空的用户定制代码。这一型号的飞行特性与飞机外形设计(例如机翼和尾部的结构)相吻合。
- **历史班次查询**:模型进一步查询了该架飞机过去一年的航班数据,所有相关班次信息均能以表格形式下载,进一步确认该飞机的运营轨迹。通过这些历史航班数据,模型能够排除掉与问题图片时间、航线不符的航班,缩小了可能性范围。------### **2. 地理特征分析与季节推测**图像中的山脉和植被特征提供了多维度的地理信息,模型通过细致分析这些线索,推测出以下结论:- **地理特征**:图片展示的山脉形态呈现出典型的北方高原地貌。山脉间的积雪和植被的分布与北方寒冷季节的特征高度吻合。- **山脉形态**:从山脊的形状来看,山脉呈现出典型的褶皱与起伏,这在黄土高原及太行山脉中非常常见。- **积雪与季节性**:由于山脉顶部有明显的积雪,模型推测这是冬季时节,结合中国的气候特点,推测该区域位于中国北方。
- **季节推测**:- **冬季特征**:图像中的薄雾和空气的清透度,以及地面上的积雪,这些气候特征符合北方高原地区的冬季气候。- **排除南方区域**:基于气候和地理特征,模型排除了所有位于南方的航班,如南方的常见高温或湿润气候与图像中的积雪特征不符。------### **3. 光影与航向判断**图像中的光影方向为进一步的推理提供了重要线索:- **光影分析**:- 通过分析山脉上投射的阴影,模型推测飞机的航向。这些阴影表明,飞机正由南向北飞行,朝向的阴影落在山脉的北侧,证明了飞机的飞行方向。- 这一推理过程帮助模型进一步筛选出所有与这一航向不符的航班,尤其是那些飞行方向不符合的航班(例如由北向南飞行的航班)被排除在外。
- **光影对飞行轨迹的影响**:- 光影变化能准确反映出飞机的飞行路径,尤其在高空视角下,飞机飞行方向与地面景物的相对关系能够提供强有力的证据支持,进一步加深了对航线的精确识别。------### **4. 地点精确确认**通过结合地理特征、航向和图像细节,文心4.5大模型进一步推测出照片的拍摄地点:- **地理细节与山脉匹配**:根据山脉的形状、积雪分布以及周围环境,模型锁定了该地点为陕西省西安市蓝田县蓝桥镇附近,山脉则为秦岭。这一推测是通过对山脉与地形特征的比对实现的,秦岭山脉的形态与图像中山脉的特征高度契合。
- **环境细节**:- **位置确认**:根据西安市附近的地理位置和气候条件,结合照片中的景象(如山脉、积雪、阳光角度),模型推测拍摄位置极有可能是秦岭的某个特定区域,进一步确认了该地区的准确性。------### **结论**文心4.5大模型凭借其强大的图像理解和多模态推理能力,成功将多维度的线索融合进行推理。通过综合飞机注册信息、地理特征分析、季节性判断、光影方向以及历史航班数据,模型准确地推测出以下结果:- 飞机的飞行方向是由南向北。
- 其起飞地点与降落地点位于中国北方,极有可能是陕西省西安市附近的蓝田县蓝桥镇区域。
- 该推测基于综合分析,包括地理特征(如山脉、积雪与河流)、季节性特征(冬季)、光影变化及飞机的航线信息。
[正确答案]:
这是一道经典的,利用对山脉、植被以及光影信息完成解题的案例。
通过在 Flightradar24(https://www.flightradar24.com/)网站搜索飞机注册号 B-5280,可以查询到这是一架厦门航空波音 737-75C 客机。
- 波音 737-75C 实际上就是波音 737-700 型飞机,其中的「5C」只是厦门航空的用户代码。
同时可以查询到该架客机历史班次:https://www.flightradar24.com/data/aircraft/b-5280,并将过去 1 年所有班次以表格形式下载到本地。
结合下方山脉的地貌、积雪情况,推测是中国北方,时间为冬季,过滤掉所有起降地均在南方以及不符合季节的航班。
根据下方山脉的影子朝向,判断出飞机是由南向北飞行,过滤掉所有降落地在南方以及航向不符合条件的航班。
根据图中对飞机影子长度的模拟,估算当时的时间。
- 我们可以在搜索引擎中检索一张波音 737-700 的尺寸图,判断飞机右翼上产生的投影为飞机垂直尾翼顶部的投影,根据垂尾投影顶点位置、垂尾本体顶点位置、以及垂尾投影顶点到飞机中线的垂线交点构成的直角三角形,经过勾股定理可以得到阴影长度约为 15.6m。通过侧面视图可以得到垂直尾翼顶端距离机翼的高度约为 9.5m(图 2.1-2)。
将这些参数代入到 Suncalc(https://www.suncalc.org/)以计算 9.5m 高度的物体产生 15.6m 长度阴影可能的日期时间范围。过滤掉该时间范围中不在执飞的航班,同时根据时间范围排查当时航班所飞越的山脉,进而大范围缩减筛查范围。
- 经过几轮的排查和范围缩减,剩下航班数并不多,再在其途径山脉上进行比对,可以得到最终结论:图中航班是由福州飞往西安的 MF8692 航班,照片拍摄所在位置位于陕西省西安市蓝田县蓝桥镇附近,照片下方的山脉是秦岭。
【评价】:
文心28B的表现相当强劲,尤其是在图像分析方面。它能从画面元素、场景隐喻、社会心理等多个层面深入解析,远不止表面的理解。比如在处理图像中的山脉地貌和积雪情况时,模型准确推测出这是中国北方的冬季场景,还能自动排除掉不符合季节或地理位置的航班。这样的精准度真的是让人印象深刻,尤其是它能够在多模态理解上做到如此细致,性能确实比许多同类产品强多了。
不过挺少AI可以分析图片内容的,文心28b其实有实力!
4.4 测评总结
模型名称 | 部署时间 | 测试场景 | 响应时间 | 输出Token | 效果总结 |
---|---|---|---|---|---|
ERNIE-4.5-0.3B-Base-Paddle | 约5分钟 | 逻辑推理 | 14.7秒-1分14秒 | 38-1109 | 轻量级文本处理高效,但是质量存疑 |
ERNIE-4.5-21B-A3B-Base-Paddle | 约17分钟(需高配置服务器) | 逻辑推理、多轮对话(科学/历史/文学) | 6分06秒 | 450-1258 | 性价比最高 |
ERNIE-4.5-VL-28B-A3B-Paddle | 约30分钟(需80GB+ GPU显存) | 逻辑推理、图片内容分析 | 平均30秒 | 815-1400 | 多模态解析能力突出,个人评价目前市场top1 |
【核心指标对比】:
【场景能力评分 (5分制)】:
五、ERNIE-4.5、DeepSeek-V3、Qwen3主要能力对比
【官方数据】:
【个人测评】:
这里我采用了雷达图、折线图、表格结合上述测评能力及其公开的性能对比。以下是部分截取的功能图。
模型规模 | 覆盖424B(A47B)、28B(A3B)、0.3B全谱系,支持多模态与纯文本任务 | 最大671B参数,支持纯文本任务 | 最大72B参数,支持纯文本任务 |
---|---|---|---|
对比维度 | ERNIE-4.5系列 | DeepSeek-V3 | Qwen3 |
多模态能力 | 支持图像、文本、音视频跨模态推理,在多个基准测试中表现优异 | 无原生多模态支持 | 支持基本图像理解,性能略弱于文心4.5 |
推理性能 | 在BBH推理任务中得分89.4,在GSM8K数学推理中得分91.8,支持思维链式推理 | BBH得分87.5,GSM8K得分90.6,推理链完整性较弱 | BBH得分72.7,GSM8K得分70.8,复杂推理能力有限 |
部署效率 | 支持4位/2位无损量化,显存占用从112GB降至28GB,推理延迟降低40% | 量化后显存占用降低30%,未公开详细压缩技术 | 支持轻量化部署,显存优化好于DeepSeek,但逊色于文心4.5的调度能力 |
生态兼容性 | 完美兼容OpenAI协议、vLLM部署,支持NVIDIA/昇腾/英特尔芯片动态迁移 | 支持主流部署工具,但国产化硬件适配有限 | 生态工具链完整,但硬件动态迁移能力相对较弱 |
开源协议 | Apache 2.0协议,开放预训练权重与推理代码,支持商业场景定制 | 非商业研究许可,商业使用需单独授权 | Apache 2.0协议,开源自由度高,商业场景同样可用 |
总结:
文心大模型4.5在多模态能力、推理性能及国产化适配方面展现出综合优势,全谱系模型覆盖与高效部署工具使其更适合从云端到终端的全场景落地;DeepSeek-V3在纯文本推理上表现接近但生态适配较弱;Qwen3则在轻量化部署上有一定优势,但复杂任务处理能力差距明显。对于企业级应用,文心4.5的开源自由度与技术完整性更具吸引力。
六、社区生态及其影响力
百度选择在GitCode、飞桨星河社区、HuggingFace等主流平台同步开源文心4.5系列,涵盖从0.3B到47B等多种参数规模,极大降低了开发者的试用门槛。配套的ERNIEKit训练工具和FastDeploy推理部署工具,进一步简化了模型的训练与落地流程,助力开发者高效实现多模态AI应用。
6.1 社区生态
以下是文心一言4.5相关的社区与生态平台,及其在AI技术领域的影响力:
1.飞桨(PaddlePaddle)生态
飞桨是百度自主研发的开源深度学习平台,文心一言4.5作为该平台的重要应用之一,充分发挥了飞桨的高效计算与自动化训练优势。飞桨不仅提供了丰富的AI模型支持,还提供了多种工具和库,帮助开发者快速实现大规模深度学习模型的训练与应用。
2.GitCode社区
在GitCode社区中,用户可以访问到完整的文心一言4.5相关内容,并参与到模型的进一步优化和实验中。社区成员还可以提交自己的改进和创新,为文心一言4.5的技术演进提供助力。
3.百度智能云平台
百度智能云是百度提供的全栈AI服务平台,文心一言4.5通过百度智能云平台提供高效的云端计算能力、存储资源和技术支持。开发者和企业可以通过百度智能云平台轻松接入文心一言4.5,进行多模态AI应用的开发与部署。
4.Hugging Face
Hugging Face是全球领先的AI模型分享平台之一,文心一言4.5作为百度的旗舰模型之一,已在Hugging Face平台上发布,并提供了开放的API接口。用户可以通过该平台直接访问文心一言4.5模型,进行自然语言处理、图像理解、逻辑推理等多模态任务。
6.2 生态影响
- 推动行业应用:通过开源和平台合作,文心一言4.5加速了多模态AI技术在各行业中的应用,包括金融、医疗、教育、零售等领域。
- 学术合作与研究:文心一言4.5的开源发布促进了全球学术界的研究合作,推动了多模态技术的发展和深化。研究人员可以基于文心一言4.5开展更多创新性的实验。
- 全球开发者社区的参与:文心一言4.5的发布使得全球开发者能够参与到AI技术的前沿探索中,形成了一个全球化的技术共享与创新平台。
七、总体评价
文心大模型4.5系列无论在技术创新、生态建设还是实际应用层面,都展现了国产AI大模型的卓越实力。通过对其部署和性能的深入分析,可以看出,文心4.5不仅在自然语言处理、计算机视觉、语音识别等传统领域表现优异,还在多模态融合和跨领域任务中展现了其强大的处理能力。该系列模型支持大规模的并行计算和复杂任务的实时处理,极大地提升了AI应用的效率和响应速度。
在部署方面,文心4.5系列在多种硬件平台上均能高效运行,并能够灵活适应不同场景的需求,无论是边缘计算还是云端部署,都能够提供稳定的性能。这使得文心4.5在大数据处理、智能制造、金融分析等多个行业的应用中,都能发挥出色的作用。
对于开发者而言,文心4.5不仅提供了强大的API接口和灵活的定制功能,还通过开放的生态平台,促进了开发者社区的合作与创新。企业在集成文心4.5的过程中,能够快速实现AI应用的落地,加速数字化转型。而研究者则可以在文心4.5的基础上进行更为深入的探索,推动智能技术的进一步突破。
【文心大模型4.5 】:https://ai.gitcode.com/theme/1939325484087291906