Featured image of post WhisperGUI

WhisperGUI

yeqing`s blog file

[TOC]{float}

Whisper GUI简单工具

目标是验证本地部署Whisper环境部署后,使用Python程序调用的情况。

  • 功能是否正常
  • 输出结果与命令行方式是否有差异

开发过程

使用cursor工具,Python语言开发

  1. 新建项目目录(预计功能不多没有初始化Git去管理该项目),Cursor打开,制作好.cursorrules,项目要求不高可直接用相关插件直接生成即可。

  2. 梳理项目功能需求逻辑,可用NOTEPADS功能直接记录备用;遇到关键需求,记录到NOTEPADS;

  3. 调试测试,处理麦克风初始化、GPU资源占用、释放、界面逻辑优化等等,最终做出符合目标的稳定可用版本;过程省略

工具使用

功能主要是音视频文件转录为文字,支持麦克风输入和文件两种方式,详见项目源码目录的README.md

实际效果如下:

录音方式

调用系统麦克风设备,实时转录为文字显示

文件方式

支持单个,多个音视频文件(格式未全部测试),进度条显示处理进度。

image-20250220182959990

结果导入AI总结-在线网站

这部分应该是包含在程序功能中,例如增加按钮调用AI大模型的API来处理文本结果文件,或是在自动化的工作流中,整体功能还在进行中,未开发完

先用的网页总结,例如上面的福田AI公务员新闻(注意整个项目的目标和场景是针对长视频而非短视频): 深圳福田公务员AI总结结果

image-20250220183602133

功能扩展1

增加使用API方式的AI总结功能,测试验证

AI总结-API方式

AI处理模块功能:通过输入提示词,调用AI大模型(如DeepSeek)进行处理。

  • 界面输入 API Base URL API Key 模型名称三个关键参数。

    • BaseURL支持添加、保存、管理,按名称选择

    • API KEY 密文显示,不支持存储和管理

    • 模型名称支持存储并且与API BaseURL关联

    • 点击"获取模型列表"按钮获取可用模型(发现第三方厂家接口不统一,没必要继续做,目前只支持硅基流动) image-20250224023038707

  • 选择要处理的转录文本文件,点击"AI处理"按钮即可触发API调用。支持单独提示词交互。支持保存常用提示词

    image-20250224023132840

  • 处理结果将实时显示在状态信息框中。可选流式输出和非流式输出(验证API使用)

    image-20250224023358455

  • 如果选择转录文件,将处理结果保存为同名的md格式文件;如果是未选中转录文本文件,则保存聊天的返回结果,需命名和选择位置。(已实现,已验证,截图略)

  • 加入环境监测,如果不支持Whisper环境,也可打开程序,支持运行AI处理模块。(已实现,未验证,截图略)

  • 记录一个Cursor技巧,配置 Cursor@Docs 数据源,可以很方便的将本文档丢给 Cursor 使用。如果文档站支持 llms.txt 协议那效果更好。 以硅基流动的API文档为例:

    • 配置之后,可以在对话时@Docs 让AI去查看对应的API或其他文档,更准确的开发,例如上述硅基流动的模型获取功能就是如下图所示这样去实现的。

    image-20250224054236577

    image-20250224054604321

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计