当前位置: 首页 > news >正文

【原创】基于gemini-2.5-flash-preview-05-20多模态模型实现短视频的自动化二创

 画面和解说保持一致,这个模型就是NB

[16:57:37] [*] 正在从视频中提取帧和时长 (频率: 1.0 帧/秒)...
[16:57:55] [+] 提取完成。视频时长: 83.40秒, 提取了 84 帧。
[16:57:55] [*] 使用AI供应商: gemini
[16:57:55] [*] 正在进行视觉分析...
[16:57:55]   L-> 正在向Vision API (gemini-2.5-flash-preview-05-20) 发送 84 帧图像...
[16:57:55]   L-> 请求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:28]   L<-收到API原始响应 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n  "timeline": [\n    {\n      "time": 0,\n      "event": "视频开场,展示零食盒并提出盲测挑战。"\n    },\n    {\n      "time": 8,\n      "event": "首位挑战者品尝零食后,表情显示其味道偏辣。"\n    },\n    {\n      "time": 17,\n      "event": "男性挑战者品尝后夸张表示手中零食有“1000件小东西”,引人发笑。"\n    },\n    {\n      "time": 50,\n      "event": "女性挑战者闻到下一款零食,直呼“闻起来很辣”的强烈反应。"\n    },\n    {\n      "time": 58,\n      "event": "成功猜中“印度”为零食原产国,引发全场欢呼。"\n    }\n  ]\n}'}], 'role': 'model'}, 'finishReason': 'S...
[16:58:28]   L<-从响应中提取的文本内容:
---
{"timeline": [{"time": 0,"event": "视频开场,展示零食盒并提出盲测挑战。"},{"time": 8,"event": "首位挑战者品尝零食后,表情显示其味道偏辣。"},{"time": 17,"event": "男性挑战者品尝后夸张表示手中零食有“1000件小东西”,引人发笑。"},{"time": 50,"event": "女性挑战者闻到下一款零食,直呼“闻起来很辣”的强烈反应。"},{"time": 58,"event": "成功猜中“印度”为零食原产国,引发全场欢呼。"}]
}
---
[16:58:28] [+] 视觉分析完成。
[16:58:28] [*] 正在生成解说文案...
[16:58:28]   L-> 正在向Script API (gemini-2.5-flash-preview-05-20) 发送指令...
[16:58:28]   L-> 请求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:41]   L<-收到API原始响应 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n  "script": [\n    {\n      "time": 0.5,\n      "text": "各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!"\n    },\n    {\n      "time": 8.5,\n      "text": "首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!"\n    },\n    {\n      "time": 17.5,\n      "text": "哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!"\n    },\n    {\n      "time": 50.5,\n      "text": "还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!"\n    },\n    {\n      "time": 58.5,\n      "text": "成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!"\n    },\n    {\n      ...
[16:58:41]   L<-从响应中提取的文本内容:
---
{"script": [{"time": 0.5,"text": "各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!"},{"time": 8.5,"text": "首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!"},{"time": 17.5,"text": "哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!"},{"time": 50.5,"text": "还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!"},{"time": 58.5,"text": "成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!"},{"time": 80.0,"text": "今天的精彩挑战到这里就告一段落!喜欢我们的节目,记得点赞、分享、关注!下期再见!"}]
}
---
[16:58:41] [+] 文案生成完成。
[16:58:41] --- 生成的脚本 ---
[16:58:41] [0.5s] 各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!
[16:58:41] [8.5s] 首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!
[16:58:41] [17.5s] 哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!
[16:58:41] [50.5s] 还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!
[16:58:41] [58.5s] 成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!
[16:58:41] [80.0s] 今天的精彩挑战到这里就告一段落!喜欢我们的节目,记得点赞、分享、关注!下期再见!
[16:58:41] --------------------
[16:58:41] [*] 正在为每一句解说合成语音...
[16:58:41]   - 合成第 1/6 句...
[16:58:41]   L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!'
[16:58:44]   L<- 收到来自本地TTS的音频数据 (大小: 396008 bytes)
[16:58:44]   - 合成第 2/6 句...
[16:58:44]   L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!'
[16:58:47]   L<- 收到来自本地TTS的音频数据 (大小: 341392 bytes)
[16:58:47]   - 合成第 3/6 句...
[16:58:47]   L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!'
[16:58:50]   L<- 收到来自本地TTS的音频数据 (大小: 379624 bytes)
[16:58:50]   - 合成第 4/6 句...
[16:58:50]   L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!'
[16:58:53]   L<- 收到来自本地TTS的音频数据 (大小: 333200 bytes)
[16:58:53]   - 合成第 5/6 句...
[16:58:53]   L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!'
[16:58:56]   L<- 收到来自本地TTS的音频数据 (大小: 333200 bytes)
[16:58:56]   - 合成第 6/6 句...
[16:58:56]   L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '今天的精彩挑战到这里就告一段落!喜欢我们的节目,记得点赞、分享、关注!下期再见!'
[16:59:00]   L<- 收到来自本地TTS的音频数据 (大小: 497040 bytes)
[16:59:00] [+] 语音合成完成。
[16:59:00] [*] 正在使用ffmpeg合并视频和所有音轨...
[17:00:01] 
[+] 成功!二创视频已保存为 'H:/013-AI/instagram搬运/downloadfile/thesmilyfam\2025-08-02_Blindfolded taste testing this month’s @Universal _7401325663703092511_translated_recreated.mp4'
[17:00:01] [*] 正在清理临时音频文件...
[17:00:01] [+] 清理完成。

成本预算,我使用的是本地tts

1. 视觉分析 (Vision)

  • 抽帧频率: 根据您的 config.ini 设置,是 0.5 帧/秒。

  • 消耗计算: 120秒 × 0.5帧/秒 = 60帧

  • API消耗: 这60张图片会在1次API请求中全部发送给Gemini进行分析。所以,这里会消耗您每日1000次免费额度中的 1次

2. 文案生成 (Script)

  • 消耗计算: 程序会根据视觉分析的结果,再向AI发起1次请求,让它生成解说脚本。

  • API消耗: 这里会再消耗您每日1000次免费额度中的 1次

3. 语音合成 (TTS)

  • AI判断: 根据我们的智能规则,一个120秒的视频,AI大概会生成 120 / 25 = 4.8,也就是4-6句左右的解说词。

  • API消耗: 因为您在 config.ini 中已经将 tts_model 设置为了 local,所以这一步的所有请求都会发送到您自己的本地TTS服务

  • 云端API消耗: 0次


总结

处理一个2分钟的视频,总共会消耗您云端API的:

  • Gemini API (视觉+文案): 1 + 1 = 2次请求 (在您每日1000次的免费额度内)。

  • TTS API: 0次请求 (因为使用的是您自己的本地服务)。

 

http://www.dtcms.com/a/316175.html

相关文章:

  • 从 “看懂图” 到 “读懂视频”:多模态技术如何用文本反哺视觉?
  • 原型模式在C++中的实现与面向对象设计原则
  • 二维数点问题 1
  • 学习日志28 python
  • AI编程新时代:从氛围编程到上下文编程的深度实践和思考
  • 鸿蒙开发、大数据开发、Java开发与前端开发全面对比解析
  • 【银行测试】银行票据项目业务+票据测试点分析(四)
  • 2025《艾诺提亚失落之歌》逆向工程解包尝试
  • Linux网络编程:TCP初体验
  • VirtualBox安装教程
  • 64位程序调用32位dll方法
  • 【Linux系统编程】线程概念与控制
  • 使用valgrind工具检测server端lib库的内存泄漏
  • FT5X06 触摸芯片
  • 【技术教程】如何将 ONLYOFFICE 文档连接到 Confluence
  • nodejs 编程基础01-NPM包管理
  • Android 之 Kotlin
  • 让 Spark 干体力活:用 Java 快速找出最小值
  • GaussDB 并行创建索引
  • Webpack 5 Module Federation 模块共享最佳实践
  • AI智能体的安全困境:防护机制与伦理平衡的艺术
  • 高精度惯性导航IMU传感器供应商价格
  • Python-机器学习初识
  • C结构体的几种定义形式 + typedef结合使用的好处
  • 数分思维14:用户研究与数据分析
  • WordPress如何实现隐藏文章部分内容?WordPress无法解析[hide]...[/hide]这类短代码怎么办?
  • 【机器学习】算法调参的两种方式:网格搜索(枚举)、随机搜索
  • Android 中几种常用布局的优缺点
  • 2023 年 6 月 GESP Python 二级试卷真题+答案+解析
  • 基于 Lyapunov 能量函数的等势面绘制方法 —— MATLAB 实现与工程应用拓展