绝了!极空间搭配视频智语,生产力拉满,多平台视频摘要一键搞定
「NAS、键盘、路由器······年轻就要多折腾,我是爱折腾的熊猫,今天又给大家分享最近折腾的内容了,关注是对我最大的支持,阿里嘎多」
引言
不得不说,极空间的用户可真是多才多艺。本期要介绍的项目,是用户用 AI 开发出来的。虽说靠 AI 开发,但这项目完成度相当高,不仅有 Web 界面,还支持 Docker 一键部署。
项目为视频内容解析应用,像 YouTube、bilibili 这些主流平台它都支持。应用能自动下载视频并提取语音信息,还能把它们转录出来,接着用 AI 一键分析内容,从中提取重要部分,生成摘要。对于好多爱在网上看教程视频或者学习内容的用户来说,这功能可太实用了。要知道,很多教程视频时长特别长,要是看完自己去提炼里面的精华内容,那可太费时间了。但这个应用就能解决这个问题,帮用户轻松提炼精华。同时,它还能把视频内容转化成文字版本,方便储存,以后复习也方便。
项目地址为https://github.com/zhuguadundan/VideoWhisper
,感兴趣的可以去多多支持。
部署机
转录得用到本地性能,所以熊猫在这儿用了性能相当不错的极空间 Z423 旗舰版。在做语音转录的时候,CPU 和内存的占用会比较高,尤其是内存。不过,Z423 旗舰版预装就有 32G 内存,就算运行时占用高,也不影响其他 Docker 和系统的流畅度。
除了内存,CPU 也会影响转录速度。虽说像 Z4 Pro 还有极空间早期的 Z4S 这些也能运行转录,但速度上,肯定还是用 AMD 5825U 的 Z423 旗舰版更快些。要是你对速度有要求,那就建议用处理器好点的 NAS 来部署。
部署过程
咱回到部署过程。项目都已经提供 compose 文件了,所以部署起来特简单。不过因为涉及数据持久化,所以部署之前,咱们得先把对应的映射文件夹建好。
项目的文件夹需要映射配置文件,接着是数据和日志这些。对应的文件夹分别是 /config、/output、/temp 还有 /logs 。在自己存 Docker 项目的文件夹里新建就行,建议用 M.2 固态硬盘。
随后我们打开极空间的Docker应用,来到compose新建项目复制代码。
services:videowhisper:image: zhugua/videowhisper:latest # 使用v0.15版本container_name: videowhisper-appports:- "5000:5000"volumes:# 配置文件映射- ./config:/app/config# 数据目录映射 - 支持新的任务结构- ./output:/app/output- ./temp:/app/temp- ./logs:/app/logs# 可选:如果需要持久化任务历史# - ./data:/app/dataenvironment:- TZ=Asia/Shanghai- FLASK_ENV=production- PYTHONPATH=/app# 设置文件权限相关环境变量- PYTHONUNBUFFERED=1- APP_VERSION=0.15.0restart: unless-stopped# 健康检查healthcheck:test: ["CMD", "curl", "-f", "http://localhost:5000/api/health"]interval: 30stimeout: 10sretries: 3start_period: 40s# 资源限制(可选)deploy:resources:limits:memory: 2Gcpus: '4.0'reservations:memory: 1Gcpus: '1'
这里面的文件夹映射,可以通过极空间查询路径的方法来映射。除此之外,咱们还得检查一下端口占用情况,要是发现有占用的,记得改一下。最后就是资源限制这方面,如果不想占用太多资源,自己设置个阈值就行。
等所有检查都确定没啥问题了,点击创建就好啦。之后项目会自己去拉取镜像,最后按照咱们设置的环境变量新建容器。项目创建好后,在日志里应该就能看到对应的 Web 启动信息。
项目使用
不管是通过极空间的远程访问,还是直接在浏览器里输入极空间 IP 加上冒号再加上端口号,都能访问项目的 Web 界面。项目没设置鉴权,所以千万别把它暴露到公网上用。
在使用之前,咱们还得配置 API 信息。API 设置界面里,有语音识别服务、油管的 Cookies 配置、AI 文本处理服务,还有能进行 Obsidian 集成配置。按照提示填写就行,填完了记得测试一下,看看能不能正常连接,最后最后,一定要拉到最底部进行保存,熊猫首次使用就忘记了。
必填项填好以后,回到首页。这儿熊猫拿 B 站举例,把需要解析的 B 站视频链接复制下来,粘贴好,接着选择 AI 模型,再点击智能处理。这时候,项目就开始进行音频下载,之后会把音频分成几个片段来做语音转文字,最后对文字进行 AI 总结,还会优化格式再输出。
速度跟 AI 模型、项目性能设置,还有视频长短都有关系。输出的内容还挺好的,能把原视频里的重点基本都概括到。在处理结果里,你可以选择查看逐字稿、总结报告,还有内容分析,而且还支持下载。
最后在文件管理中能看到我们下载的音频文件以及对应报告的Markdown格式的文稿,支持下载以及删除。
写在最后
项目挺好用的,不管是当成教程视频或者学习视频的总结工具,还是想给一些长视频做文字摘要,体验都不错。就算你没这方面需求,自己部署一个放着也没啥不行的,万一哪天有需要了,能马上拿出来用,毕竟技多不压身嘛。
以上便是本次分享的全部内容了,如果你觉得还算有趣或者对你有所帮助,不妨点赞收藏,最后也希望能得到你的关注,咱们下期见!