[TOC]{float}
Whisper GUI简单工具
目标是验证本地部署Whisper环境部署后,使用Python程序调用的情况。
- 功能是否正常
- 输出结果与命令行方式是否有差异
开发过程
使用cursor工具,Python语言开发
-
新建项目目录(预计功能不多没有初始化Git去管理该项目),Cursor打开,制作好.cursorrules,项目要求不高可直接用相关插件直接生成即可。
-
梳理项目功能需求逻辑,可用NOTEPADS功能直接记录备用;遇到关键需求,记录到NOTEPADS;
-
调试测试,处理麦克风初始化、GPU资源占用、释放、界面逻辑优化等等,最终做出符合目标的稳定可用版本;过程省略
工具使用
功能主要是音视频文件转录为文字,支持麦克风输入和文件两种方式,详见项目源码目录的README.md
实际效果如下:
录音方式
调用系统麦克风设备,实时转录为文字显示
文件方式
支持单个,多个音视频文件(格式未全部测试),进度条显示处理进度。
结果导入AI总结-在线网站
这部分应该是包含在程序功能中,例如增加按钮调用AI大模型的API来处理文本结果文件,或是在自动化的工作流中,整体功能还在进行中,未开发完
先用的网页总结,例如上面的福田AI公务员新闻(注意整个项目的目标和场景是针对长视频而非短视频): 深圳福田公务员AI总结结果
功能扩展1
增加使用API方式的AI总结功能,测试验证
AI总结-API方式
AI处理模块功能:通过输入提示词,调用AI大模型(如DeepSeek)进行处理。
-
界面输入 API Base URL API Key 模型名称三个关键参数。
-
BaseURL支持添加、保存、管理,按名称选择
-
API KEY 密文显示,不支持存储和管理
-
模型名称支持存储并且与API BaseURL关联
-
点击"获取模型列表"按钮获取可用模型(发现第三方厂家接口不统一,没必要继续做,目前只支持硅基流动)
-
-
选择要处理的转录文本文件,点击"AI处理"按钮即可触发API调用。支持单独提示词交互。支持保存常用提示词
-
处理结果将实时显示在状态信息框中。可选流式输出和非流式输出(验证API使用)
-
如果选择转录文件,将处理结果保存为同名的md格式文件;如果是未选中转录文本文件,则保存聊天的返回结果,需命名和选择位置。(已实现,已验证,截图略)
-
加入环境监测,如果不支持Whisper环境,也可打开程序,支持运行AI处理模块。(已实现,未验证,截图略)
-
记录一个Cursor技巧,配置
Cursor
的@Docs
数据源,可以很方便的将本文档丢给Cursor
使用。如果文档站支持 llms.txt 协议那效果更好。 以硅基流动的API文档为例:- 配置之后,可以在对话时@Docs 让AI去查看对应的API或其他文档,更准确的开发,例如上述硅基流动的模型获取功能就是如下图所示这样去实现的。