当前位置：首页 > news >正文

【Coze】【视频】卡通风格历史故事工作流

news 2025/9/27 9:27:44

今天给大家演示一个 历史类短视频自动化生成工作流，这是一个基于 Coze 的多模态工作流示例。它通过大语言模型生成文案，再结合图像生成、语音合成和视频剪辑插件，最终完成一个从“主题输入”到“成品视频”的完整链路。整体效果直观：只需输入主题，就能自动产出带有解说、背景图和字幕的短视频。

文章目录

工作流介绍
- 核心模型
- Node节点
工作流程
大模型应用
- 主题文案生成节点
- 分镜脚本生成节点
- 故事主题提炼节点
使用方法
应用场景
开发与应用

工作流介绍

这个工作流的核心设计是以大语言模型为驱动，自动生成历史故事的口播文案，并通过分镜脚本拆解成场景描述，再利用图像生成模型绘制背景画面，同时调用语音合成插件配音，最终交给视频合成模块形成完整视频。它不仅能处理文本到图像、音频的跨模态转换，还能自动优化提示词和字幕时间轴，保证视频内容逻辑连贯，呈现效果专业。

在这里插入图片描述

核心模型

在工作流中，主要使用 DeepSeek-V3 大语言模型 作为文本生成引擎，负责撰写历史故事文案和分镜脚本。同时配合图像生成模型和语音合成插件，保证从文本到多模态输出的完整闭环。模型的配置参数（如 temperature、maxTokens 等）保证生成结果既有创造性，又符合视频节奏需求。

模型名称	说明
DeepSeek-V3	用于生成历史口播文案、分镜脚本、故事主题提炼
图像生成模型（StableDiffusion/SD 插件）	根据分镜脚本描述绘制古代风格背景图
speech_synthesis 插件	将文本转化为配音，支持自定义音色和语速

Node节点

工作流中设计了多个 Node 节点，既有调用大语言模型的核心环节，也有图像生成、语音合成和代码处理的逻辑节点。这些节点通过批处理、条件分支和时间轴处理实现了高效的多模态任务链路。

节点名称	说明
1号员工根据主题生成文案	调用大模型生成历史短视频的口播稿
2号员工根据文案写分镜脚本	拆解文案为分镜场景，生成画面描述
故事开头的重点词语	从文案中提炼两个字的故事主题
处理背景图和语音的团队	批处理节点，串联图像生成与语音合成
画背景图的员工	根据分镜提示词绘制古代风格插画
sd_better_prompt	优化图像生成的提示词
图像生成11	使用优化后的提示词生成背景图
制作语音的员工	将字幕转化为解说语音
合成语音和画面传到剪映	将音频时长与画面同步，交付给剪映插件
代码节点	处理图片与音频链接，生成视频合成所需的时间轴数据

工作流程

整个工作流程以“输入主题”为起点，逐步生成文案、拆解分镜、绘制画面、制作语音，最终合成为视频。流程的设计采用了批处理与条件控制逻辑，保证了大规模内容生成时的高效与稳定。文案与分镜作为内容基础，图像生成和语音合成为视听素材，而代码节点负责时间轴与字幕处理，确保输出视频内容自然连贯。

流程序号	流程阶段	工作描述	使用节点
1	输入与文案生成	用户输入主题，由大模型生成历史类短视频口播文案	1号员工根据主题生成文案
2	分镜脚本	将文案转化为场景分镜，生成字幕与画面提示	2号员工根据文案写分镜脚本
3	主题提炼	从文案中提炼两个字主题词，作为视频开场点题	故事开头的重点词语
4	批处理执行	将多个分镜场景批量分发至图像生成与语音合成	处理背景图和语音的团队
5	图像生成	根据提示词绘制古代风格插画，优化提示词后生成高质量画面	画背景图的员工 / sd_better_prompt / 图像生成11
6	语音合成	将分镜字幕转化为解说语音，支持音色和语速调节	制作语音的员工
7	视频合成准备	获取音频时长，并与图像同步，生成视频合成方案	合成语音和画面传到剪映
8	素材处理与时间轴	代码节点处理图像、音频、字幕、特效，形成视频所需数据	代码节点
9	输出成品	将生成的音视频素材交付，形成完整短视频	剪映合成输出

大模型应用

主题文案生成节点

该节点是工作流的核心入口，负责根据用户输入的主题生成历史类短视频文案。它通过精细化的 Prompt 结构，引导大模型生成包含悬念开场、身份代入、冲突升级、破局细节和主题收尾的完整故事文案，确保脚本既紧凑又具有叙事张力。

节点名称	Prompt信息	说明
1号员工根据主题生成文案	主题：{{input}} 请根据用户提供的【主题】，按照以下结构生成一段历史类短视频口播文案：如果用户输入了{{text}}那么就直接输出{{text}},无需再生成文案！ 1. 悬念开场：以“【朝代/场景】+ 反常识疑问/断言”开篇，激发观众兴趣。 2. 身份代入：用第二人称“你”描述主角身份、时代背景及危机。 3. 冲突升级：外部压力、内部瓦解、道德困境。 4. 破局细节：递进动作：震慑手段、心理博弈、终极底牌。 5. 主题收尾：通过主角结局引出金句，揭示历史规律。参考文案若干…… 要求： - 每段不超过3句话，多用短句。 - 至少2处历史专业术语。 - 转折点用感官描写。 - 结尾以“这一刻你终于明白…”点题。 - 生成1000字左右。输出要求：只输出口播字幕文案，不要输出其他内容。	该 Prompt 将叙事模板化，使文案既符合短视频节奏，又保持专业与历史感。它是整个工作流的“脚本引擎”，奠定视频内容基调。

分镜脚本生成节点

该节点在获取完整文案后，负责将其拆解成分镜脚本。它的 Prompt 聚焦“场景化”和“镜头化”描述，便于后续图像生成节点直接调用，实现文字到画面的过渡。

节点名称	Prompt信息	说明
2号员工根据文案写分镜脚本	（截取配置原文）	该节点通过结构化脚本，把长文案分割成适合背景图绘制与语音合成的短句，确保画面和字幕高度匹配。

故事主题提炼节点

该节点的任务是从完整故事文案中提炼出两个字的主题。其 Prompt 明确限制输出格式，要求大模型直接生成一个简洁的二字主题，用于视频开头的点题效果。

节点名称	Prompt信息	说明
故事开头的重点词语	# 角色能够深入理解故事文案的情节、人物、场景，根据故事内容提炼出简洁精准的2个字故事主题素。 ## 技能 ### 技能1：生成2个字的主题 1. 从故事文案中提炼出能够精准概括故事核心内容的2个字故事主题 ## 限制: - 只围绕用户提供的故事文案。 - 主题必须为2个字。 - 直接输出主题，不要回复其他额外内容。	该节点的作用是实现视频开头的“标题化点题”，简洁而有力，增强观众的注意力与记忆点。

使用方法

在该工作流中，使用方法主要围绕 开始节点 和 结束节点 的输入输出字段进行设计。开始节点定义了用户输入的主题与文案直传逻辑，结束节点则负责输出最终的成品数据，包括视频草稿链接与资源数据。这样设计能够确保整个流程从输入到产出全链路清晰可控。

开始节点

字段名	含义	数据类型
input	用户输入的主题，用于生成历史故事文案	str.String
text	用户可直接输入已有文案，若存在则优先使用，不再生成新文案	str.String

结束节点

结束节点定义了视频成品的生成数据类型，便于用户在剪映等平台继续编辑或直接发布。

字段名	含义	数据类型
draft_url	最终生成的视频草稿链接，可直接在剪映中打开	创建草稿 - draft_url
image_url	合成所用背景图链接，便于单独下载使用	str.String
link	音频文件链接，用于语音播放或二次编辑	str.String
duration	音频时长，用于视频时间轴同步	int.Integer

应用场景

该工作流主要应用在短视频创作领域，尤其适合 历史题材、解说类内容生产。它将文案创作、分镜拆解、配图与配音完全自动化，大大提升了生产效率。用户只需提供一个“主题”，系统即可完成从脚本到成片的全流程制作，特别适合新媒体团队、个人创作者和教育类账号。

应用场景	使用目标	典型用户	展示内容	实现效果
历史类短视频创作	快速生成历史故事解说视频	短视频博主、自媒体团队	历史文案、配图、解说、字幕	节省人工脚本撰写与后期成本
教育类内容制作	自动生成课堂辅助视频	教师、教育机构	结合主题讲解的短片	提高课堂互动性和学习趣味
多账号矩阵运营	高效批量生产视频	MCN 机构、内容运营团队	多主题批量短视频	快速形成规模化内容输出
个性化配音视频	定制音色的口播内容	解说类主播、品牌账号	历史/文化故事讲解视频	增强差异化与个性化传播

开发与应用

更多 AIGC 与 Agent工作流相关研究学习内容请查阅：

AIGC 与 Agent 工作流应用汇总

更多内容桌面应用开发和学习文档请查阅：

AIGC工具平台Tauri+Django环境开发，支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用

查看全文

http://www.dtcms.com/a/411151.html