[TOC]{float}

Whisper GUI简单工具

目标是验证本地部署Whisper环境部署后，使用Python程序调用的情况。

开发过程

使用cursor工具，Python语言开发

功能主要是音视频文件转录为文字，支持麦克风输入和文件两种方式，详见项目源码目录的README.md

实际效果如下：

调用系统麦克风设备，实时转录为文字显示

支持单个，多个音视频文件（格式未全部测试），进度条显示处理进度。

这部分应该是包含在程序功能中，例如增加按钮调用AI大模型的API来处理文本结果文件，或是在自动化的工作流中，整体功能还在进行中，未开发完

先用的网页总结，例如上面的福田AI公务员新闻（注意整个项目的目标和场景是针对长视频而非短视频）：深圳福田公务员AI总结结果

增加使用API方式的AI总结功能，测试验证

AI处理模块功能：通过输入提示词，调用AI大模型（如DeepSeek）进行处理。

界面输入 API Base URL API Key 模型名称三个关键参数。
- BaseURL支持添加、保存、管理，按名称选择
- API KEY 密文显示，不支持存储和管理
- 模型名称支持存储并且与API BaseURL关联
- 点击"获取模型列表"按钮获取可用模型（发现第三方厂家接口不统一，没必要继续做，目前只支持硅基流动）
选择要处理的转录文本文件，点击"AI处理"按钮即可触发API调用。支持单独提示词交互。支持保存常用提示词
处理结果将实时显示在状态信息框中。可选流式输出和非流式输出（验证API使用）
如果选择转录文件，将处理结果保存为同名的md格式文件；如果是未选中转录文本文件，则保存聊天的返回结果，需命名和选择位置。（已实现，已验证，截图略）
加入环境监测，如果不支持Whisper环境，也可打开程序，支持运行AI处理模块。（已实现，未验证，截图略）
记录一个Cursor技巧，配置 Cursor 的 @Docs 数据源，可以很方便的将本文档丢给 Cursor 使用。如果文档站支持 llms.txt 协议那效果更好。以硅基流动的API文档为例：
- 配置之后，可以在对话时@Docs 让AI去查看对应的API或其他文档，更准确的开发，例如上述硅基流动的模型获取功能就是如下图所示这样去实现的。