AI加持PPT制作
概述
在AI和LLM的冲击下,PPT也卷得不要不要的,甚至在学术界也有研究者在搞这方面研究,本文汇总闭源和开源PPT创作工具。
闭源
其他:橙篇、Napkin AI、墨刀AI。
Gamma
官网,一句话生成PPT。
presenti
官网,支持从Word、PDF、Markdown、Mindmap、模板文件生成PPT。
Skywork
昆仑万维推出天工大模型,产品包括:
- 天工AI搜索:国内首款融入LLM的搜索引擎,支持自然语言问答和深度对话;
- 天工超级智能体:定位为AI版Office,能生成文档、PPT、表格等,在多项AI评测中表现突出。
线路:LLM—>AI Deep Research—> AI Agent。
天工超级智能体的核心定位,是一个基于AI Agent(智能体)架构和Deep Research(深度研究)技术构建的一站式多模态内容生产平台。
驱动天工的两大核心引擎
- 多智能体:专业分工,协同作战;
5+1垂直专业系统架构;- 5个专家智能体:专注于文档(Doc)、演示文稿(PPT)、表格(Excel)、网页(Web)和播客(Podcast)的生成。确保在核心办公和创作场景下的专业深度和输出质量。
- 1个通用智能体:通过接入数十个MCP,能灵活调用各种工具,处理复杂的跨模态创意任务。
- Deep Research:深度思考;集成模型深度思考、推理、分析和信息整合等高级能力。
有两个官网:
- 国内:登录方式如手机号和微信;
- 国际:登录方式如Google、微软、Facebook、苹果、电子邮箱。
国内版界面:

国际版

侧边栏多两个功能入口:定时任务、用户案例。
顶部多一个API平台入口。
智能体模式多两个:博客模式、YouVibe(YouTube视频学习和创作工具)。
使用

大多数模式有两种模式,PPT支持3种模式

新建项目

多一个【专业数据】,定时任务和普通Query差别不大:

实测

大模型已接收到请求任务,开始干活

大概13分钟左右,提示任务完成,没有卡壳。

生成的文件如下:

几个功能按钮:下载、编辑、引用到输入框、分享、在新标签页中打开、收藏到知识库
点击编辑,进入画布Canvas模式,常见的文档在线编辑功能都在下图中:

下载按钮功能如下,没看到程序员最喜欢的Markdown模式;有可能是我的提问没有强调到这一点。

不过,DOCX或(可编辑)PDF、HTML二次转换到Markdown,也非常简单;工具也非常多。
打开Work文档,不管是字数(11500+字)、目录大纲,还是内容深度,都已足够;当然需要经过二次加工。
一个问题就用完系统赠送的500积分。
AIPPT
官网,
基于AI赋能生成大纲,支持文档(Word、PDF、TXT、Markdown等)转换为PPT,提供海量模板,支持两种工作模式:

提供各大主流平台安装包,如Windows、MacOS、Android、iOS,微信小程序、PC端,包括Office插件。
此外,针对NVIDIA RTX GPU、Intel酷睿芯片、AMD锐龙AI处理器、高通骁龙处理器等进行产品适配优化。
slidev
官网,开源(GitHub,41.6K Star,1.8K Fork)的AI幻灯片生成器,基于Markdown进行交互。在线体验
Presenton
官网,开源(GitHub,2.8K Star,523 Fork)的AI幻灯片生成器。只需输入一句主题描述,它就能在几秒内产出结构完整、设计精美的演示文稿,并支持在线编辑、多人协作与一键导出。项目基于React+Next.js构建前端,FastAPI负责后端逻辑,调用大语言模型自动完成内容大纲、配图与排版。
亮点:
- 一句话生成:一句话即刻获得完整幻灯片
- 主题风格一键切换:内置12套设计系统(极简、商务、赛博朋克、手绘等)
- 实时协作:基于Yjs的多人光标同步,支持评论与版本历史
- 多格式导出:PDF、PPTX、PNG、在线链接,适配路演、课堂、社媒全场景
- 开源可定制:前端组件、Prompt模板、主题变量全部开放,方便二次开发与企业私有部署
技术栈:
- 前端:Next.js 14 App Router+TailwindCSS+Shadcn/ui,支持深色模式与响应式布局。
- 后端:FastAPI+SQLModel,异步任务队列用Celery+Redis处理生成任务。
- AI管道:
- LLM(如OpenAI GPT-4o)生成大纲;
- 配图,如:DALL·E 3、Unsplash API;
- 自研Layout Engine根据内容长度动态调整版式。
- 部署:官方SaaS跑在Vercel+Railway;Docker Compose一条命令即可本地私有化。
本地部署:
git clone https://github.com/presenton/presenton.git
cd presenton
# BE
cd api
cp .env.example .env
pip install -r requirements.txt
uvicorn main:app --reload
# FE
cd ../web
pnpm install
pnpm dev
LandPPT
官网,开源(GitHub,1.4K Star,188 Fork)基于LLM的智能演示文稿生成平台,能够自动将文档内容转换为专业的PPT演示文稿。集成多种AI模型、智能图像处理、深度研究功能和丰富的模板系统。
三步生成专业PPT:
- 需求确认:输入演示主题、选择目标受众、设置页数范围,选择合适的场景模板,AI将理解您的需求;
- 大纲生成:AI智能分析需求,生成结构化大纲,支持可视化编辑和实时预览调整;
- PPT生成:基于确认的大纲,一键生成完整PPT,包含精美设计、智能配图和专业内容。
核心功能特性
- 一键生成:从主题到完整PPT,全程AI自动化处理;
- 多AI模型支持:集成OpenAI GPT-4o、Anthropic Claude-3.5、Google Gemini-1.5等顶尖模型,同时支持Ollama本地部署,让您灵活选择最适合的AI引擎;
- 智能文档处理:支持PDF、Word、Markdown、Excel等多种格式,使用MinerU和MarkItDown进行高质量内容提取,自动识别文档结构并转换为演示内容;
- 智能图像系统:三合一图像解决方案:本地图库管理、网络图像搜索(Pixabay、Unsplash)、AI图像生成(DALL-E、SiliconFlow),自动匹配最适合的配图;
- 深度研究:集成Tavily和SearXNG双引擎搜索,实时获取网络最新信息,智能提取和结构化处理内容,为PPT提供准确的数据支撑;
- 场景化模板:提供商务、教育、旅游等多种专业场景模板,支持自定义模板导入,AI自动生成创意布局,让每份PPT都独具特色;
- 多格式导出:支持PDF、HTML、PPTX多种格式导出,完美兼容各种演示场景,保证演示效果的一致性和专业性。
架构

技术栈:
- FastAPI:高性能异步框架
- SQLAlchemy:ORM数据库
- Pydantic:数据验证
- Uvicorn:ASGI服务器
文档处理
- MinerU:PDF解析
- MarkltDown:格式转换
- BeautifulSoup4:HTML解析
- Playwright:网页提取
图像处理
- DALL-E:AI生成
- Pillow:Python图像处理库
- SiliconFlow:国产AI
- Pollinations:开源AI
API
打开http://localhost:8000/docs,即可看到熟悉的FastAPIAPI文档。

实战
支持多种部署方式:
- uv
- Docker
- Docker Compose
基于uv:
git clone https://github.com/sligter/LandPPT.git
cd LandPPT
uv sync
# 可选,安装依赖,用于PPTX导出
uv pip install apryse-sdk --extra-index-url=https://pypi.apryse.com
cp .env.example .env
vim .env
uv run python run.py

在Windows平台上使用Git Bash,如果遇到上述问题,可考虑切换到CMD。
基于Docker:
docker run -d \
--name landppt \
-p 8000:8000 \
-v $(pwd)/.env:/app/.env \
bradleylzh/landppt:latest
基于Docker Compose:
docker compose up -d
浏览器打开http://localhost:8000,用户名密码输入admin/admin123,开始体验:

登录成功后:

项目状态有4种:

场景包括:通用、旅游观光、儿童科普、深入分析、历史文化、科技技术、方案汇报:

选择场景(以科技技术为例)后,进入【需求确认】页:

截图如上,远比我之前制作PPT想得多考虑得周全。难怪我之前绩效考核、KPI汇报,老板们给我的评分比我应该得到的要低,虽然我做了很多事,干了很多活。。
以【科技技术】场景为例,其受众有:

自定义页数范围

随后进入【大纲生成】阶段,最后就是【PPT生成】。
场景template_config,模板配置,定义整体颜色、风格、字体:
| 配置项 | 含义 | 可选值 |
|---|---|---|
style | 整体设计风格和视觉基调 | - "professional":专业商务- "vibrant":活泼生动- "playful":轻松有趣- "analytical":分析严谨- "classical":经典传统- "modern":现代时尚- "corporate":企业正式 |
color_scheme | 主要色彩倾向 | - "blue":蓝色系(专业、信任)- "green":绿色系(自然、成长)- "rainbow":彩虹色系(活泼、多彩)- "dark":深色系(严肃、专业)- "brown":棕色系(稳重、传统)- "purple":紫色系(创新、科技)- "navy":深蓝色系(权威、企业) |
font_family | 字体风格偏好 | - "Arial,sans-serif":现代无衬线字体(清晰、专业)- "Georgia,serif":经典衬线字体(优雅、传统)- "ComicSansMS,cursive":手写风格字体(轻松、友好)- "Helvetica,sans-serif":简洁无衬线字体(现代、简约)- "TimesNewRoman,serif":传统衬线字体(正式、学术)- "Roboto,sans-serif":现代几何字体(科技、现代) |
场景举例
| 场景 | style | color_scheme | font_family | 实际影响 |
|---|---|---|---|---|
| 通用 | professional | blue | Arial | 商务正式,蓝色主调,现代字体 |
| 旅游 | vibrant | green | Georgia | 生动活泼,绿色自然,优雅字体 |
| 教育 | playful | rainbow | ComicSans | 轻松有趣,多彩活泼,友好字体 |
| 分析 | analytical | dark | Helvetica | 严谨专业,深色沉稳,简洁字体 |
模板管理:

截止v0.1.5版本,官方提供25个模板:

如果感觉官方模板不够用,可:
- 新建模板:需熟悉HTML模板代码编写,支持即时预览,有一定门槛;
- AI生成模板:借助于AI模型的能力,需要能力足够的模型,否则模板不尽如人意;
- 模板市场:官网维护平台,支持广大内容创作者上传用户自创建的模板。不过目前数量明显不够。
- 导入模板:支持HTML、JSON等格式。
AI生成模板

本地图床管理,UI样式有些问题

上传后的图片支持:复制链接(满足API格式规范http://localhost:8000/api/image/view/uuid),下载、删除

系统配置管理,非常详细:

包括:
- AI提供者:支持修改模型API Key,URL、模型名,模型可用性测试,模型任务配置
- 生成参数
- 应用配置
- 图片服务
模型任务配置如下:

可为不同功能指定专用提供者和模型,未设置时将继承默认配置:
- 默认模型
- 大纲生成/要点增强
- 创意指导
- 配图与提示词
- 幻灯片生成
- 演讲稿生成
- AI编辑助手
- AI模板生成
- 多模态视觉分析
这又是什么API聚合平台:

生成参数、应用配置、图片服务,不再一一截图。
Pollinations
官网,GitHub,开源GenAI平台。
apryse
官网,GitHub,官方文档。文档处理库,可用于将PDF转换为Office,如PPT。
marp
https://github.com/marp-team/marp-cli
ChatPPT
GitHub能搜到多个ChatPPT项目。
HuiMi24
GitHub,304 Star,54 Fork;基于Python实现,使用streamlit来生成前端页面,支持ChatGPT开源模型,Ollama本地模型:

DjangoPeng
GitHub,148 Star,106 Fork;一个基于多模态AI技术的智能助手,旨在提升企业办公自动化流程的效率。它能够处理语音、图像和文本等多种输入形式,通过精确的提示工程和强大的自然语言处理能力,为用户生成高质量的PPT演示文稿。ChatPPT不仅简化信息收集和内容创作过程,还通过自动化的报告生成和分析功能,帮助企业快速、准确地完成各类汇报和展示任务,从而显著提升工作效率和业务价值。
主要功能
- 多模态输入支持:支持语音、图像、文本等多种输入形式,灵活适应用户的使用需求;
- 自动生成演示文稿:基于输入内容,自动生成结构化的PPT演示文稿,支持多种布局和模板;
- 语音识别和文本转换:自动将语音输入转化为文本,进行内容处理和文稿生成,降低用户的操作成本;
- 图像处理与嵌入:支持将用户上传的图片自动嵌入演示文稿中,并根据内容智能选择合适的布局;
- 多语言支持:结合OpenAI模型和其他语言模型,支持中英文等多语言的演示文稿生成和报告输出;
- 可视化界面:通过Gradio实现简洁易用的图形化界面,让用户无需复杂配置即可快速生成演示文稿。
EvoPresent
项目主页,GitHub,论文。

一个自动把论文变成像人类演讲的高质量学术汇报(含逐页幻灯片 + 讲稿 + 配图 + 讲解视频)的多智能体流水线系统:

不只是把PDF变成PPT,主打三件事:
- 内容讲故事:自动梳理论文卖点、主线逻辑、逐页脚本,而不是死抄摘要;
- 视觉设计:自动铺版、配色、留白、字号、插图(甚至用图像生成补充示意),并强制执行统一视觉风格,如
tech_dark深色科技感模板; - 自我迭代美化:内置审美裁判模型PresAesth,会像设计导师一样,对每一页幻灯片打分、指出丑点(如版式拥挤、层级混乱、字体不协调),并要求重新排版,直到达到给定阈值。
最后,还能把整套幻灯片讲出来:自动生成讲解语音(可使用自定义音色或内置音色)、驱动一个虚拟讲者的口型/面部表情、合成解说视频,形成一条完整的学术宣传片。
TrainPPTAgent
GitHub,212 Star,基于AI的智能PPT生成工具。只需输入主题,系统即可自动通过微信搜索网络内容,生成结构完整、内容丰富的PPT大纲与逐页内容。项目采用前后端分离架构:前端负责交互、大纲编辑与模板选择,后端则借助大语言模型(LLM)与强化学习(GRPO)完成内容生成与优化,使生成PPT更贴合用户目标。
功能特性
- 智能大纲生成输入主题后,自动生成逻辑清晰、结构合理的演示文稿大纲;
- 逐页内容生成采用流式传输技术,实现PPT内容的实时生成与展示,提升交互体验;
- 用户已有大纲或者文件上传到知识库根据知识库的内容生成PPT;
- 模板支持提供多种模板供用户选择,支持内容与样式的分离式填充;
- 不同模型支持各种商业模型和本地模型;
- 前后端分离架构前端使用Vue.js+Vite+TS,后端基于FastAPI,架构清晰、可扩展性强;
- 引入GRPO,优化PPTAgent的生成效果,使结果更符合用户需求。
拓展
Yjs
官网,GitHub,官方文档。
多人协同编辑。
参考
- 使用yjs给图形编辑器加上多人协同编辑功能
