当前位置：首页 > news >正文

AI加持PPT制作

news 2025/11/12 15:21:54

概述

在AI和LLM的冲击下，PPT也卷得不要不要的，甚至在学术界也有研究者在搞这方面研究，本文汇总闭源和开源PPT创作工具。

闭源

其他：橙篇、Napkin AI、墨刀AI。

Gamma

官网，一句话生成PPT。

presenti

官网，支持从Word、PDF、Markdown、Mindmap、模板文件生成PPT。

Skywork

昆仑万维推出天工大模型，产品包括：

天工AI搜索：国内首款融入LLM的搜索引擎，支持自然语言问答和深度对话；
天工超级智能体：定位为AI版Office，能生成文档、PPT、表格等，在多项AI评测中表现突出。

线路：LLM—>AI Deep Research—> AI Agent。

天工超级智能体的核心定位，是一个基于AI Agent（智能体）架构和Deep Research（深度研究）技术构建的一站式多模态内容生产平台。

驱动天工的两大核心引擎

多智能体：专业分工，协同作战；5+1垂直专业系统架构；
- 5个专家智能体：专注于文档（Doc）、演示文稿（PPT）、表格（Excel）、网页（Web）和播客（Podcast）的生成。确保在核心办公和创作场景下的专业深度和输出质量。
- 1个通用智能体：通过接入数十个MCP，能灵活调用各种工具，处理复杂的跨模态创意任务。
Deep Research：深度思考；集成模型深度思考、推理、分析和信息整合等高级能力。

有两个官网：

国内：登录方式如手机号和微信；
国际：登录方式如Google、微软、Facebook、苹果、电子邮箱。

国内版界面：
在这里插入图片描述
国际版

侧边栏多两个功能入口：定时任务、用户案例。

顶部多一个API平台入口。

智能体模式多两个：博客模式、YouVibe（YouTube视频学习和创作工具）。

使用
在这里插入图片描述
大多数模式有两种模式，PPT支持3种模式

新建项目

多一个【专业数据】，定时任务和普通Query差别不大：

实测

大模型已接收到请求任务，开始干活

大概13分钟左右，提示任务完成，没有卡壳。

生成的文件如下：
在这里插入图片描述
几个功能按钮：下载、编辑、引用到输入框、分享、在新标签页中打开、收藏到知识库

点击编辑，进入画布Canvas模式，常见的文档在线编辑功能都在下图中：
在这里插入图片描述
下载按钮功能如下，没看到程序员最喜欢的Markdown模式；有可能是我的提问没有强调到这一点。

不过，DOCX或（可编辑）PDF、HTML二次转换到Markdown，也非常简单；工具也非常多。

打开Work文档，不管是字数（11500+字）、目录大纲，还是内容深度，都已足够；当然需要经过二次加工。

一个问题就用完系统赠送的500积分。

AIPPT

官网，

基于AI赋能生成大纲，支持文档（Word、PDF、TXT、Markdown等）转换为PPT，提供海量模板，支持两种工作模式：
在这里插入图片描述
提供各大主流平台安装包，如Windows、MacOS、Android、iOS，微信小程序、PC端，包括Office插件。

此外，针对NVIDIA RTX GPU、Intel酷睿芯片、AMD锐龙AI处理器、高通骁龙处理器等进行产品适配优化。

slidev

官网，开源（GitHub，41.6K Star，1.8K Fork）的AI幻灯片生成器，基于Markdown进行交互。在线体验

Presenton

官网，开源（GitHub，2.8K Star，523 Fork）的AI幻灯片生成器。只需输入一句主题描述，它就能在几秒内产出结构完整、设计精美的演示文稿，并支持在线编辑、多人协作与一键导出。项目基于React+Next.js构建前端，FastAPI负责后端逻辑，调用大语言模型自动完成内容大纲、配图与排版。

亮点：

一句话生成：一句话即刻获得完整幻灯片
主题风格一键切换：内置12套设计系统（极简、商务、赛博朋克、手绘等）
实时协作：基于Yjs的多人光标同步，支持评论与版本历史
多格式导出：PDF、PPTX、PNG、在线链接，适配路演、课堂、社媒全场景
开源可定制：前端组件、Prompt模板、主题变量全部开放，方便二次开发与企业私有部署

技术栈：

前端：Next.js 14 App Router+TailwindCSS+Shadcn/ui，支持深色模式与响应式布局。
后端：FastAPI+SQLModel，异步任务队列用Celery+Redis处理生成任务。
AI管道：
1. LLM（如OpenAI GPT-4o）生成大纲；
2. 配图，如：DALL·E 3、Unsplash API；
3. 自研Layout Engine根据内容长度动态调整版式。
部署：官方SaaS跑在Vercel+Railway；Docker Compose一条命令即可本地私有化。

本地部署：

git clone https://github.com/presenton/presenton.git
cd presenton
# BE
cd api
cp .env.example .env
pip install -r requirements.txt
uvicorn main:app --reload
# FE
cd ../web
pnpm install
pnpm dev

LandPPT

官网，开源（GitHub，1.4K Star，188 Fork）基于LLM的智能演示文稿生成平台，能够自动将文档内容转换为专业的PPT演示文稿。集成多种AI模型、智能图像处理、深度研究功能和丰富的模板系统。

三步生成专业PPT：

需求确认：输入演示主题、选择目标受众、设置页数范围，选择合适的场景模板，AI将理解您的需求；
大纲生成：AI智能分析需求，生成结构化大纲，支持可视化编辑和实时预览调整；
PPT生成：基于确认的大纲，一键生成完整PPT，包含精美设计、智能配图和专业内容。

核心功能特性

一键生成：从主题到完整PPT，全程AI自动化处理；
多AI模型支持：集成OpenAI GPT-4o、Anthropic Claude-3.5、Google Gemini-1.5等顶尖模型，同时支持Ollama本地部署，让您灵活选择最适合的AI引擎；
智能文档处理：支持PDF、Word、Markdown、Excel等多种格式，使用MinerU和MarkItDown进行高质量内容提取，自动识别文档结构并转换为演示内容；
智能图像系统：三合一图像解决方案：本地图库管理、网络图像搜索（Pixabay、Unsplash）、AI图像生成（DALL-E、SiliconFlow），自动匹配最适合的配图；
深度研究：集成Tavily和SearXNG双引擎搜索，实时获取网络最新信息，智能提取和结构化处理内容，为PPT提供准确的数据支撑；
场景化模板：提供商务、教育、旅游等多种专业场景模板，支持自定义模板导入，AI自动生成创意布局，让每份PPT都独具特色；
多格式导出：支持PDF、HTML、PPTX多种格式导出，完美兼容各种演示场景，保证演示效果的一致性和专业性。

架构
在这里插入图片描述
技术栈：

FastAPI：高性能异步框架
SQLAlchemy：ORM数据库
Pydantic：数据验证
Uvicorn：ASGI服务器

文档处理

MinerU：PDF解析
MarkltDown：格式转换
BeautifulSoup4：HTML解析
Playwright：网页提取

图像处理

DALL-E：AI生成
Pillow：Python图像处理库
SiliconFlow：国产AI
Pollinations：开源AI

API

打开http://localhost:8000/docs，即可看到熟悉的FastAPIAPI文档。
在这里插入图片描述

实战

支持多种部署方式：

uv
Docker
Docker Compose

基于uv：

git clone https://github.com/sligter/LandPPT.git
cd LandPPT
uv sync
# 可选，安装依赖，用于PPTX导出
uv pip install apryse-sdk --extra-index-url=https://pypi.apryse.com
cp .env.example .env
vim .env
uv run python run.py

在这里插入图片描述
在Windows平台上使用Git Bash，如果遇到上述问题，可考虑切换到CMD。

基于Docker：

docker run -d \
--name landppt \
-p 8000:8000 \
-v $(pwd)/.env:/app/.env \
bradleylzh/landppt:latest

基于Docker Compose：

docker compose up -d

浏览器打开http://localhost:8000，用户名密码输入admin/admin123，开始体验：
在这里插入图片描述
登录成功后：

项目状态有4种：

场景包括：通用、旅游观光、儿童科普、深入分析、历史文化、科技技术、方案汇报：
在这里插入图片描述
选择场景（以科技技术为例）后，进入【需求确认】页：

截图如上，远比我之前制作PPT想得多考虑得周全。难怪我之前绩效考核、KPI汇报，老板们给我的评分比我应该得到的要低，虽然我做了很多事，干了很多活。。

以【科技技术】场景为例，其受众有：
在这里插入图片描述
自定义页数范围

随后进入【大纲生成】阶段，最后就是【PPT生成】。

场景template_config，模板配置，定义整体颜色、风格、字体：

配置项	含义	可选值
`style`	整体设计风格和视觉基调	- `"professional"`：专业商务 - `"vibrant"`：活泼生动 - `"playful"`：轻松有趣 - `"analytical"`：分析严谨 - `"classical"`：经典传统 - `"modern"`：现代时尚 - `"corporate"`：企业正式
`color_scheme`	主要色彩倾向	- `"blue"`：蓝色系（专业、信任） - `"green"`：绿色系（自然、成长） - `"rainbow"`：彩虹色系（活泼、多彩） - `"dark"`：深色系（严肃、专业） - `"brown"`：棕色系（稳重、传统） - `"purple"`：紫色系（创新、科技） - `"navy"`：深蓝色系（权威、企业）
`font_family`	字体风格偏好	- `"Arial,sans-serif"`：现代无衬线字体（清晰、专业） - `"Georgia,serif"`：经典衬线字体（优雅、传统） - `"ComicSansMS,cursive"`：手写风格字体（轻松、友好） - `"Helvetica,sans-serif"`：简洁无衬线字体（现代、简约） - `"TimesNewRoman,serif"`：传统衬线字体（正式、学术） - `"Roboto,sans-serif"`：现代几何字体（科技、现代）

场景举例

场景	style	color_scheme	font_family	实际影响
通用	professional	blue	Arial	商务正式，蓝色主调，现代字体
旅游	vibrant	green	Georgia	生动活泼，绿色自然，优雅字体
教育	playful	rainbow	ComicSans	轻松有趣，多彩活泼，友好字体
分析	analytical	dark	Helvetica	严谨专业，深色沉稳，简洁字体

模板管理：
在这里插入图片描述
截止v0.1.5版本，官方提供25个模板：

如果感觉官方模板不够用，可：

新建模板：需熟悉HTML模板代码编写，支持即时预览，有一定门槛；
AI生成模板：借助于AI模型的能力，需要能力足够的模型，否则模板不尽如人意；
模板市场：官网维护平台，支持广大内容创作者上传用户自创建的模板。不过目前数量明显不够。
导入模板：支持HTML、JSON等格式。

AI生成模板
在这里插入图片描述
本地图床管理，UI样式有些问题

上传后的图片支持：复制链接（满足API格式规范http://localhost:8000/api/image/view/uuid），下载、删除

系统配置管理，非常详细：

包括：

AI提供者：支持修改模型API Key，URL、模型名，模型可用性测试，模型任务配置
生成参数
应用配置
图片服务

模型任务配置如下：
在这里插入图片描述
可为不同功能指定专用提供者和模型，未设置时将继承默认配置：

默认模型
大纲生成/要点增强
创意指导
配图与提示词
幻灯片生成
演讲稿生成
AI编辑助手
AI模板生成
多模态视觉分析

这又是什么API聚合平台：
在这里插入图片描述
生成参数、应用配置、图片服务，不再一一截图。

Pollinations

官网，GitHub，开源GenAI平台。

apryse

官网，GitHub，官方文档。文档处理库，可用于将PDF转换为Office，如PPT。

marp

https://github.com/marp-team/marp-cli

ChatPPT

GitHub能搜到多个ChatPPT项目。

HuiMi24

GitHub，304 Star，54 Fork；基于Python实现，使用streamlit来生成前端页面，支持ChatGPT开源模型，Ollama本地模型：
在这里插入图片描述

DjangoPeng

GitHub，148 Star，106 Fork；一个基于多模态AI技术的智能助手，旨在提升企业办公自动化流程的效率。它能够处理语音、图像和文本等多种输入形式，通过精确的提示工程和强大的自然语言处理能力，为用户生成高质量的PPT演示文稿。ChatPPT不仅简化信息收集和内容创作过程，还通过自动化的报告生成和分析功能，帮助企业快速、准确地完成各类汇报和展示任务，从而显著提升工作效率和业务价值。

主要功能

多模态输入支持：支持语音、图像、文本等多种输入形式，灵活适应用户的使用需求；
自动生成演示文稿：基于输入内容，自动生成结构化的PPT演示文稿，支持多种布局和模板；
语音识别和文本转换：自动将语音输入转化为文本，进行内容处理和文稿生成，降低用户的操作成本；
图像处理与嵌入：支持将用户上传的图片自动嵌入演示文稿中，并根据内容智能选择合适的布局；
多语言支持：结合OpenAI模型和其他语言模型，支持中英文等多语言的演示文稿生成和报告输出；
可视化界面：通过Gradio实现简洁易用的图形化界面，让用户无需复杂配置即可快速生成演示文稿。

EvoPresent

项目主页，GitHub，论文。
在这里插入图片描述
一个自动把论文变成像人类演讲的高质量学术汇报（含逐页幻灯片 + 讲稿 + 配图 + 讲解视频）的多智能体流水线系统：

不只是把PDF变成PPT，主打三件事：

内容讲故事：自动梳理论文卖点、主线逻辑、逐页脚本，而不是死抄摘要；
视觉设计：自动铺版、配色、留白、字号、插图（甚至用图像生成补充示意），并强制执行统一视觉风格，如tech_dark深色科技感模板；
自我迭代美化：内置审美裁判模型PresAesth，会像设计导师一样，对每一页幻灯片打分、指出丑点（如版式拥挤、层级混乱、字体不协调），并要求重新排版，直到达到给定阈值。

最后，还能把整套幻灯片讲出来：自动生成讲解语音（可使用自定义音色或内置音色）、驱动一个虚拟讲者的口型/面部表情、合成解说视频，形成一条完整的学术宣传片。

TrainPPTAgent

GitHub，212 Star，基于AI的智能PPT生成工具。只需输入主题，系统即可自动通过微信搜索网络内容，生成结构完整、内容丰富的PPT大纲与逐页内容。项目采用前后端分离架构：前端负责交互、大纲编辑与模板选择，后端则借助大语言模型（LLM）与强化学习（GRPO）完成内容生成与优化，使生成PPT更贴合用户目标。

功能特性