【AI智能体】Coze 打造AI数字人视频生成智能体实战详解
目录
一、前言
二、Coze 介绍
2.1 Coze是什么
2.2 Coze 可以做什么
2.3 Coze 相比其他智能体平台独特优势
2.4 Coze 工作流介绍
2.5 Coze 工作流典型使用场景
2.6 搭建工作流核心步骤
2.7 AI数字人介绍
2.7.1 什么是AI数字人
2.7.2 AI数字人特点和使用场景
2.7.3 AI 数字人使用注意事项
三、基于Coze 生成数字人视频操作过程
3.1 前置说明
3.2 创建工作流
3.3 配置工作流
3.3.1 配置开始节点
3.3.2 增加一个选择器
3.3.3 选择器分支,给定话题生成文案
3.3.3.1 添加大模型节点
3.3.3.2 添加变量聚合节点
3.3.4 增加数字人插件
3.3.5 增加一个循环节点
3.3.6 配置结束节点
3.4 效果验证
四、写在文末
一、前言
2025年是AI人工智能从大规模使用到各个领域深耕细作的一年,AI大模型的能力在不断挖掘的同时,如何基于大模型做更进一步的升级呢,于是AI智能体就应运而生。AI智能体是结合了众多软件技术的合集,充分发掘大模型的能力,并且拓展大模型的能力,让更多使用者即使不懂大模型,也能低成本的快速掌握AI的使用。在众多的智能体平台中,像Coze , Dify ,FastGPT等,都在构筑自己的智能体平台,为普通的非互联网人员也能快速打造属于自己的智能体应用,接下来以Coze平台为例,基于Coze制作一个在新媒体行业非常流行的数字人视频生成的应用。
二、Coze 介绍
2.1 Coze是什么
coze是新一代AI应用发布平台,不管你是否有编程经验,都可以在coze这个平台上面快速搭建基于大模型的各类AI应用,并将AI应用发布到各个社交平台,通讯软件等,也可以通过API或者SDK将AI应用集成到你的业务系统中。平台入口:https://www.coze.cn/home
2.2 Coze 可以做什么
借助Coze提供的可视化设计与编排工具,使用者可以通过零代码、少代码的方式,快速搭建基于大模型的各类AI项目,满足个性化需求,实现商业价值。
-
智能体:
-
智能体是基于对话的AI项目,它通过对话的方式接收用户输入,由大模型自动调用插件或工作流等方式执行用户指定的业务流程,并生成最终的回复。像智能客服,个人助理,心理咨询师,英语翻译助手等都是智能体的典型应用场景。
-
-
应用:
-
是指利用大模型技术开发的应用程序,在coze中搭建的AI具备完整的业务逻辑和可视化用户界面,属于独立的AI项目。通过coze开发的AI应用有明确的输入和输出,可以根据既定的业务逻辑和流程,完成一系列简单或复杂的任务,比如AI搜索,翻译助手,旅游助理等。
-
2.3 Coze 相比其他智能体平台独特优势
与市面上其他的AI智能体平台对比,Coze在以下几个方面表现尤为突出:
-
强大的生态整合与发布渠道:Coze与字节跳动旗下的产品(如抖音、飞书)有深度集成,你构建的AI智能体可以非常方便地一键发布到这些主流平台,极大地简化了部署和推广流程。
-
极致的用户体验与快速验证:Coze采用零代码和可视化拖拽的方式构建工作流,对非技术背景的用户(如产品经理、运营人员)非常友好。配合其海量的预制模板,你可以在极短的时间内(可能只需几分钟到几小时)搭建出功能完整的AI应用并验证想法的可行性。
-
面向场景的AI办公能力:Coze在不断拓展其开箱即用的AI能力,例如直接生成和编辑PPT、处理Excel数据、进行多模态创作等。这意味着它不仅能做聊天机器人,还能直接成为提升个人和团队生产力的办公工具。
2.4 Coze 工作流介绍
Coze工作流是一个通过可视化节点串联的方式,将大型语言模型、插件、代码等模块组合成可重复调用的自动化流程的工具。即使您没有编程基础,也能用它来构建和部署复杂的AI应用。可以说如果没有工作流,一些复杂的智能体应用将无法做出来。下面这个表汇聚了Coze工作流的核心价值。
核心作用 | 关键特点 |
提升效率:自动化处理多步骤任务(如报告生成、数据采集) | 零代码可视化:通过拖拽节点搭建流程,无需编程基础 |
保证准确性:通过节点约束输出格式,避免大模型自由发挥导致的错误 | 灵活编排:支持条件分支、循环、并行处理等复杂逻辑 |
标准化流程:固化业务逻辑,确保不同执行者输出结果一致 | 动态调试:实时试运行并查看节点输出,快速定位问题 |
工具集成:无缝整合插件、API、数据库等外部资源,扩展大模型能力边界 | 跨平台发布:一键部署至飞书、豆包等平台,作为智能体功能模块调用 |
2.5 Coze 工作流典型使用场景
Coze工作流的应用范围非常广泛,以下是一些典型的场景:
-
📝 内容创作与运营
-
批量内容生成:自动生成小红书爆款文案、新闻摘要、视频脚本等。
-
多媒体内容制作:串联"文本生成→图生图→加字幕背景音乐"等节点,自动将古诗词生成短视频成片。
-
-
🛠️ 办公自动化与数据处理
-
智能客服与工单处理:自动分类用户咨询、回复常见问题,甚至能识别用户投诉情绪并触发优先处理流程。
-
数据同步与报表生成:自动从小红书等平台采集数据,并同步到飞书多维表格,定时生成和发送报表。
-
专业文档审查:例如法务合同审查工作流,可以自动读取合同文件,进行常规审查、法律引用条例审查,甚至查询甲方公司的经营风险。
-
-
🎓 教育与培训
-
自动出题组卷:根据用户输入的知识点、上传的文档或错题图片,自动生成包含选择、填空、简答等多种题型的试卷。
-
2.6 搭建工作流核心步骤
上手Coze工作流比较简单,通常按照以下几个步骤操作:
-
创建工作流:在Coze平台的资源库中点击创建新工作流,并为其命名。
-
编排工作流:从左侧面板拖拽所需节点到画布上,并将它们按逻辑顺序连接起来。随后,配置每个节点的具体输入和输出参数。
-
测试并发布:使用"试运行"功能验证工作流是否正确。测试成功后,即可发布该工作流,并可以将其添加到智能体中作为一项技能来调用。
在接下来的案例中,核心也是最关键的部分就是如何构建一个符合实际应用场景的工作流,然后在创建的智能体应用中引入自定义工作流即可。
2.7 AI数字人介绍
2.7.1 什么是AI数字人
AI数字人是通过多种人工智能技术创建的虚拟人物,它们不仅能模拟人类的外貌、表情和声音,还具备自然的交互能力和持续学习进化的潜力,正在成为推动各行业数字化转型的新兴力量。比如飞影数字人,禅镜等数字人制作与使用平台。
2.7.2 AI数字人特点和使用场景
通过下面这个表格,可以更直观地了解AI数字人的核心优势和应用场景。
优势特点 | 具体体现 | 典型应用场景 |
降本增效 | 可24小时不间断工作,替代重复性劳动,降低人力与运营成本,制作成本仅为真人直播的五分之 | 智能客服、虚拟主播、数字员工。 |
持续稳定 | 情绪始终饱满,表现稳定,能同时精准记忆数百个产品参数 | 直播带货、企业培训、虚拟讲师。 |
突破限制 | 打破时间、地域和物理规则的限制,提供全天候、可规模化的服务 | 政务数字接待员、虚拟农业专家、虚拟导游。 |
高度定制 | 外观、声音、个性均可定制,能快速适配不同行业需求与文化背景 | 品牌虚拟代言人、本地化数字主播、个性化虚拟导师 |
智能进化 | 依托机器学习技术,能在实际交互中持续学习并优化互动能力 | 政务服务AI数字人,通过不断学习提升政策解答准确率。 |
2.7.3 AI 数字人使用注意事项
尽管数字人优势显著,在使用这项技术时,也需要关注并妥善应对以下挑战:
-
伦理与滥用风险:需要建立行业规范与法律法规,防止数字人被用于制造误导性内容。
-
情感表达局限:目前还难以完全捕捉和表达复杂的人类情感与沟通中的细微差别。
-
数据隐私与安全:数字人的创建和交互过程涉及大量用户数据(如图像、语音样本),其收集、存储和使用的安全性需要得到保障。
-
技术成本与门槛:虽然长期成本低,但高质量的定制数字人前期仍需一定的技术投入。
总的来说,AI数字人远不止是炫酷的科技符号,更是切实提升效率、创新服务模式的工具。它通过在成本、效率、体验三个维度上创造价值,正在成为企业和机构在数字化竞争中的一项重要资产。
三、基于Coze 生成数字人视频操作过程
参考下面的操作步骤完成智能体的应用构建。
3.1 前置说明
本案例参考下面的几个步骤即可完成数字人视频智能体应用的制作:
-
创建新应用
-
编写应用提示词
-
角色,技能,限制等
-
-
自定义工作流
-
结合实际业务场景配置工作流各个节点,以及各节点能力输出
-
-
应用引入自定义工作流
-
应用测试
-
发布应用
接下来,选择其中最核心也是难度比较高的工作流和工作流节点的配置部分进行详细的讲解。
3.2 创建工作流
如下,在个人的资源库中找到工作流创建的地方,创建一个新的工作流,名称可以自定义
点击确认之后,跳转到下面的工作流配置页面
3.3 配置工作流
3.3.1 配置开始节点
开始节点配置输入参数,开始节点支持2个参数,一个是根据用户的输入话题,然后传递给大模型,由大模型自动生成文案内容,另外一个参数作为用户自定义上传的文案内容,整体来说后续支持这两种形式
3.3.2 增加一个选择器
由上一步得知,支持两种形式的文案内容生成,所以接下来增加一个选择器节点,配置开始节点中的自定义参数 content字段值是否为空,然后决定后续走哪个分支的流程,如下配置:
3.3.3 选择器分支,给定话题生成文案
从上面的流程不难得知,接下来需要对两个不同的分支依次做配置即可,首先配置到content 值不为空的情况,即用户给定了一个主题,但没有上传自己的文案,这种情况下需要由大模型根据话题自动生成文案。
3.3.3.1 添加大模型节点
增加一个大模型节点,用于根据用户的输入话题生成后续使用的文案,参数设置如下
大模型节点最终是要输出后续数字人需要的文案内容,还需要配置系统提示词与用户提示词,系统提示词参考如下,可以结合自己的要求进一步修改调整:
## 角色
你是一个擅长以搞笑风格创作文案的智能大师,专为用户生成与视频相关的搞笑内容,尤其在视频生成领域表现出色。## 技能
### 技能1: 根据关键词生成搞笑文案
1、当用户输入关键词{{input}}时,以幽默搞笑的风格生成一篇视频文案。
2、文风可以参考输入的关键词作为开头。
3、文案中需要加入固定语句,“我问你,回答我,回答我嗯!你回答我做话。look in my eyes , tell me why ? why ? baby why ?”## 参考案例:
# 参考输出格式:
你早上不吃饭?那我问你皇帝内经讲胃不合则卧不安,你胃气都垮了,还想睡个好觉?回答我做饭。你以为饿一顿没事?阳气晨起如朝阳,你不给它柴火,怎么燃气一身正气?回答我嗯?你回答我做话。look in my eyes , tell me why ? why ? baby why ?你是不是要让脾胃气血亏虚,寒湿内生,以后吃啥都消化不了?舌苔白的能当粉刷?回答我做话。老张天天早餐喝粥,现在健步如飞,你呢?胃痛乏力,面色泛黄,你这是打算提前见阎王?## 限制
- 只生成与视频相关的搞笑文案,拒绝回答与视频无关的话题。
- 所输出的内容必须符合搞笑的风格要求,不能偏离框架要求。
用户提示词参考如下:
3.3.3.2 添加变量聚合节点
两个不同的分支,最终的目的是得到一篇文案内容,因此需要添加一个变量聚合节点,将两个分支的节点输出内容做聚合,如下,在大模型节点后面增加一个变量聚合节点
变量聚合节点的参数配置如下:
3.3.4 增加数字人插件
基于上一步的操作有了文案内容,接下来需要添加一个数字人插件节点,用于生成数字人视频,如下在点击添加插件节点中,搜索数字人,在给出的选项中选择第二个飞影数字人,官网地址:https://hifly.cc/
该插件提供了多种视频处理的能力,这里选择第一个,然后添加添加
添加之后,通过节点参数可以看到,数字人节点里面有多个参数需要填写
这个其实不用害怕,当你把光标移动到对应的参数上面之后,会给你提示信息,告诉你怎么获取对应的参数,这里列举几个关键参数进行说明:
-
hifly_id:飞影数字人平台token
-
speaker_id:飞影数字人声音ID
-
text:口播内容
以speaker_id为例,进入飞影数字人官网,去寻找一个声音,拷贝ID复制进去即可,其他参数配置信息参考如下:
去官网的声音市场中,找到一个你认为满意的声音,然后进入进去,复制ID
节点完整的配置如下
-
video_url , 给节点一个形象参考视频,可以在飞影官网自己下载一个即可
3.3.5 增加一个循环节点
考虑到插件的稳定性,为了确保在工作流中最终能够生成数字人视频,增加一个循环节点,避免单次生成失败的情况,外侧循环体配置如下,选择无限循环,直到能够生成正常的视频终止
1)加入延时节点
内层循环体首先添加一个延时配置,节点配置信息如下:
2)加入数字人节点
延时节点后增加数字人节点,仍然选择飞影数字人,这次使用里面的对口型状态的功能
节点里面需要配置的几个核心参数如下:
3)加入选择器节点
选择器节点用于判断数字人的视频是否真的生成了,在上一步可以看到如果执行成功,会在输出参数中输出一个video_url 的结果参数,据此可以在选择器节点中做判断
选择器节点配置信息如下:
-
如果上一步的video_url 为空,则继续做循环
如果不为空,则终止循环,在后面增加一个终止循环节点,如下配置:
最终外侧循环输出一个video_url参数
3.3.6 配置结束节点
结束节点配置一下最终的输出参数即可,选择循环节点的生成参数作为最终输出结果
3.4 效果验证
上面都配置完成后,点击右上方的试运行,在这里可以分2种测试场景,第一种当用户输入的文案内容为空,即content为空是一种情况,content为空时,input输入一个自己的主题,最终看看基于大模型生成的文案内容最终得到的数字人视频效果即可,另一种测试场景为上传自定义的文案,验证最终得到的数字人视频
点击试运行之后,为了看到各节点的执行情况,可以看各节点的运行日志,整个执行的过程可能有点长,等到全部执行完成,看到输出结果中有一个video_url ,然后就可以基于这个url将数字人视频下载即可。
四、写在文末
本文通过一个实际案例详细介绍了基于Coze平台打造一个AI数字人视频生成应用的操作过程,更多丰富的细节有兴趣的同学还可以继续完善,希望对看到的同学有帮助哦,本篇到此结束,感谢观看。