【原创】基于gemini-2.5-flash-preview-05-20多模态模型实现短视频的自动化二创
画面和解说保持一致,这个模型就是NB
[16:57:37] [*] 正在从视频中提取帧和时长 (频率: 1.0 帧/秒)...
[16:57:55] [+] 提取完成。视频时长: 83.40秒, 提取了 84 帧。
[16:57:55] [*] 使用AI供应商: gemini
[16:57:55] [*] 正在进行视觉分析...
[16:57:55] L-> 正在向Vision API (gemini-2.5-flash-preview-05-20) 发送 84 帧图像...
[16:57:55] L-> 请求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:28] L<-收到API原始响应 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n "timeline": [\n {\n "time": 0,\n "event": "视频开场,展示零食盒并提出盲测挑战。"\n },\n {\n "time": 8,\n "event": "首位挑战者品尝零食后,表情显示其味道偏辣。"\n },\n {\n "time": 17,\n "event": "男性挑战者品尝后夸张表示手中零食有“1000件小东西”,引人发笑。"\n },\n {\n "time": 50,\n "event": "女性挑战者闻到下一款零食,直呼“闻起来很辣”的强烈反应。"\n },\n {\n "time": 58,\n "event": "成功猜中“印度”为零食原产国,引发全场欢呼。"\n }\n ]\n}'}], 'role': 'model'}, 'finishReason': 'S...
[16:58:28] L<-从响应中提取的文本内容:
---
{"timeline": [{"time": 0,"event": "视频开场,展示零食盒并提出盲测挑战。"},{"time": 8,"event": "首位挑战者品尝零食后,表情显示其味道偏辣。"},{"time": 17,"event": "男性挑战者品尝后夸张表示手中零食有“1000件小东西”,引人发笑。"},{"time": 50,"event": "女性挑战者闻到下一款零食,直呼“闻起来很辣”的强烈反应。"},{"time": 58,"event": "成功猜中“印度”为零食原产国,引发全场欢呼。"}]
}
---
[16:58:28] [+] 视觉分析完成。
[16:58:28] [*] 正在生成解说文案...
[16:58:28] L-> 正在向Script API (gemini-2.5-flash-preview-05-20) 发送指令...
[16:58:28] L-> 请求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:41] L<-收到API原始响应 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n "script": [\n {\n "time": 0.5,\n "text": "各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!"\n },\n {\n "time": 8.5,\n "text": "首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!"\n },\n {\n "time": 17.5,\n "text": "哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!"\n },\n {\n "time": 50.5,\n "text": "还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!"\n },\n {\n "time": 58.5,\n "text": "成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!"\n },\n {\n ...
[16:58:41] L<-从响应中提取的文本内容:
---
{"script": [{"time": 0.5,"text": "各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!"},{"time": 8.5,"text": "首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!"},{"time": 17.5,"text": "哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!"},{"time": 50.5,"text": "还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!"},{"time": 58.5,"text": "成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!"},{"time": 80.0,"text": "今天的精彩挑战到这里就告一段落!喜欢我们的节目,记得点赞、分享、关注!下期再见!"}]
}
---
[16:58:41] [+] 文案生成完成。
[16:58:41] --- 生成的脚本 ---
[16:58:41] [0.5s] 各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!
[16:58:41] [8.5s] 首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!
[16:58:41] [17.5s] 哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!
[16:58:41] [50.5s] 还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!
[16:58:41] [58.5s] 成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!
[16:58:41] [80.0s] 今天的精彩挑战到这里就告一段落!喜欢我们的节目,记得点赞、分享、关注!下期再见!
[16:58:41] --------------------
[16:58:41] [*] 正在为每一句解说合成语音...
[16:58:41] - 合成第 1/6 句...
[16:58:41] L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '各位观众,欢迎来到今天的盲测挑战赛!一场味蕾的极限考验即将展开!'
[16:58:44] L<- 收到来自本地TTS的音频数据 (大小: 396008 bytes)
[16:58:44] - 合成第 2/6 句...
[16:58:44] L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '首位挑战者,眉头紧锁!看来这股辣味,直冲天灵盖啊!'
[16:58:47] L<- 收到来自本地TTS的音频数据 (大小: 341392 bytes)
[16:58:47] - 合成第 3/6 句...
[16:58:47] L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '哇!这位选手表情夸张,直呼有“1000件小东西”!这零食到底藏了什么玄机?!'
[16:58:50] L<- 收到来自本地TTS的音频数据 (大小: 379624 bytes)
[16:58:50] - 合成第 4/6 句...
[16:58:50] L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '还没入口!她就直呼“闻起来很辣”!这嗅觉反应也太强烈了吧!'
[16:58:53] L<- 收到来自本地TTS的音频数据 (大小: 333200 bytes)
[16:58:53] - 合成第 5/6 句...
[16:58:53] L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '成功猜中!“印度”!全场沸腾!恭喜这位挑战者,完美通关!'
[16:58:56] L<- 收到来自本地TTS的音频数据 (大小: 333200 bytes)
[16:58:56] - 合成第 6/6 句...
[16:58:56] L-> 正在向本地TTS服务 (http://127.0.0.1:5002/api/tts) 发送文本: '今天的精彩挑战到这里就告一段落!喜欢我们的节目,记得点赞、分享、关注!下期再见!'
[16:59:00] L<- 收到来自本地TTS的音频数据 (大小: 497040 bytes)
[16:59:00] [+] 语音合成完成。
[16:59:00] [*] 正在使用ffmpeg合并视频和所有音轨...
[17:00:01]
[+] 成功!二创视频已保存为 'H:/013-AI/instagram搬运/downloadfile/thesmilyfam\2025-08-02_Blindfolded taste testing this month’s @Universal _7401325663703092511_translated_recreated.mp4'
[17:00:01] [*] 正在清理临时音频文件...
[17:00:01] [+] 清理完成。
成本预算,我使用的是本地tts
1. 视觉分析 (Vision)
抽帧频率: 根据您的
config.ini
设置,是0.5
帧/秒。消耗计算: 120秒 × 0.5帧/秒 = 60帧。
API消耗: 这60张图片会在1次API请求中全部发送给Gemini进行分析。所以,这里会消耗您每日1000次免费额度中的 1次。
2. 文案生成 (Script)
消耗计算: 程序会根据视觉分析的结果,再向AI发起1次请求,让它生成解说脚本。
API消耗: 这里会再消耗您每日1000次免费额度中的 1次。
3. 语音合成 (TTS)
AI判断: 根据我们的智能规则,一个120秒的视频,AI大概会生成
120 / 25 = 4.8
,也就是4-6句左右的解说词。API消耗: 因为您在
config.ini
中已经将tts_model
设置为了local
,所以这一步的所有请求都会发送到您自己的本地TTS服务。云端API消耗: 0次。
总结
处理一个2分钟的视频,总共会消耗您云端API的:
Gemini API (视觉+文案): 1 + 1 = 2次请求 (在您每日1000次的免费额度内)。
TTS API: 0次请求 (因为使用的是您自己的本地服务)。