当前位置：首页 > news >正文

AI编程：使用Trae1小时做成的音视频工具，提取音频并识别文本

news 2025/11/5 0:49:34

背景

在上个月，有网页咨询我怎么才能获取视频中的音频并识别成文本，我当时给他的回答是去问一下AI，让AI来给你答案。

他觉得我在敷衍他，大骂了我一顿，大家觉得我的回答对吗？

小编心里委屈，我觉得现在这个时代，什么问题都可以先咨询AI，实在没思路了再咨询专业的人。

历程

作为一个在软件开发行业摸爬滚打多年的老码农，这种工具肯定还是能手到擒来的。

说实话，之前没想过这个问题，因为从来没做过音视频相关的项目，对这方面的知识了解不多。只知道直播行业对这方面的知识要求比较高。

遇事不决，先问AI。

由于之前了解过ffmpeg用这个工具获取过视频的时长，对此这个工具有基本的认知。

这里我们打开热门的AI IDE Trae，直接用Builder模式问一下一般处理音视频用技术方案，并让他写出Markdown文档。

Trae AI IDE
按照我的要求，给出了独立的md文档。

md技术需求文档

大体的浏览了一下，文档给出的还是不错的。

能给出具体的技术方案，并给出开发框架的选择。可以说文档的质量还是不错的。修改一下不满足的地方，可以作为实现的技术文档。

技术方案最终用的Electron来实现，这是比较热门的桌面端开发框架。
VSCode、Cherry Studio。

接下来就是让AI自己按照文档的要求实现了，实现的第一版，AI用简单的样式实现了。

第一版相对来说页面看起来不美观，又让ai用UI组件Element-Plus来实现。

最后的版本是这样的布局。

音频提取
相对来说还是比较简约的，毕竟功能简单。没有太多的实现。如果要添加功能可以在左侧增加一个侧边栏。

对于我来说够用了。
在这里插入图片描述
这里设置密钥，使用了硅基流动的FunAudioLLM/SenseVoiceSmall模型进行的获取，目前这个模型还是免费的，质量不错。

最后

看来我没有骗那个网友，用AI确实能解决他的问题。

技术栈

Electron
Element-Plus
NodeJs
ffmpeg

查看全文

http://www.dtcms.com/a/182063.html

扩容 QCOW2 磁盘镜像文件

PCB设计实践（十三）PCB设计中差分线间距与线宽设置的深度解析

Linux架构篇、第四章_ELK与EFK-7.17.9的日志管理

图像处理篇--- HTTP｜RTSP｜MJPEG视频流格式

对日开发 TeraTerm ttl脚本开发环境配置

轻松制作高质量视频，实时生成神器LTX-Video重磅登场！

PostgreSQL 的 pg_collation_actual_version 函数

Redis经典面试题

Spring Security 深度解析：打造坚不可摧的用户认证与授权系统

异地多活单元化架构下的微服务体系

Docker 使用总结及完整示例介绍

查看Electron 应用的调试端口

Docker中运行的Chrome崩溃问题解决

Stable Diffusion进阶之Controlnet插件使用

HTML属性

Lambda表达式解读

C++进阶--AVL树的实现续

MCP：让AI模型更可信的秘密武器

VRRP协议-IP地址冗余配置

Telnetlib三种异常处理方案

微服务的“迷宫” - 我们为何需要服务网格？

深入详解人工智能数学基础——微积分中的自动微分及其在PyTorch中的实现原理

类加载机制详解：双亲委派模型与打破它的方式

MindSpore框架学习项目-ResNet药物分类-模型训练

人脸真假检测：SVM 与 ResNet18 的实战对比

Yocto中的${D}解读

Android 13 默认打开使用屏幕键盘

使用FastAPI和Apache Flink构建跨环境数据管道

vue3项目中使用CodeMirror更复杂的用法，实现自定义语法模式，手动在指定光标位置插入/获取/替换/绑定文本

达索MODSIM实施成本高吗？哪家服务商靠谱？

背景

历程

最后

相关文章：