Featured image of post AI-Whisper音视频转文字+LLM总结+RAG+工作流.md

AI-Whisper音视频转文字+LLM总结+RAG+工作流.md

Whisper音视频转文字

[TOC]{float}

音视频转录文字+LLM总结+RAG+工作流自动化

  1. Win10 8G 显存GPU
  2. 为什么使用md格式,了解到向量模型在分段切割时,是对md格式比较友好的,如果是纯txt或者word、PDF格式的文档,切割、分段(块)的效果不好
  3. 最终目标,尝试用Dify或其他工具建立工作流,自动化处理音视频转录文字+AI总结+生成文档+保存RAG知识库全套流程

目标

视频资料的文本提取->AI总结>知识入库

对以上进行工作流自动化配置,输入文件—》最终将核心内容输入知识库(md格式)分块处理,chat问答验证

  • OpenAI的whisper开源项目,FFmpge
  • Ollama本地大模型总结/在线大模型API
  • 工作流—借助Dify或其他工具

Whisper部署

前置要安装FFmpeg,N卡走GPU需要装CUDA和PyTorch

FFmpeg安装

下载安装

官网-下载页面Download FFmpeg

image-20250216161409118

选择对应的系统,比如Windows安装,选择其中一个链接,以Whindow builds by BtbN为例,进入后是Github项目的releases页面;

下载适合本机的Windows后找目录解压即可使用

image-20250216162214906

配置环境变量

配置好环境变量方便使用,把bin目录的绝对路径,添加到系统变量的Path里

image-20250216165102416

测试验证

检查环境变量配置是否正常,ffmpeg命令有输出说明配置正常,无输出返回上一步检查,bin后有无带\之类的。

image-20250216164937397

NVIDIA CUDA工具包

如果是N卡可以支持GPU方式跑Whisper,需要安装它的CUDA开发工具包

  • 先检查显卡信息,确认支持CUDA

image-20250216165846383

  • 然后去官网安装CUDA开发者工具包,去官网下载安装,CUDA Toolkit 12.8 Downloads | NVIDIA Developer 选择适合系统的以及安装方式,安装方式—> local本地安装要下载整个包比较大,network是通过网络安装下载到本地的包小。

image-20250216180108875

  • 下载完毕后进行安装,然后在命令行输入nvcc --version查看是否正常安装了。 有坑,要选择自定义安装,指定装CUDA工具包的路径,不然开始指定的是不对CUDA组件这些生效的还是会被装到C盘去 image-20250216185013518 image-20250216184947806

安装完毕 image-20250216185209607

命令行检查

image-20250216185643005

Whisper安装

信息

官网Introducing Whisper | OpenAI

Github地址https://github.com/openai/whisper.git

Hugging Face Whisper项目-右侧)

Hugging Face Space在线演示-Whisper

麦克风,音频文件,Youtube视频地址三种方式的演示环境

image-20250216162033059

模型表

主要看RAM这里,最多尝试到medium和turbo这里

image-20250216204209179

安装使用

按照Github项目说明pip安装

1
pip install -U openai-whisper

太慢了就更换国内源

1
pip install -U openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完毕即可使用,但是发现是跑的CPU

whisper –help 命令查看帮助

比如下面这条 指定model 类型为small

1
whisper test.m4a --model small --language Chinese --model_dir L:\Whisper

默认走的是CPU,转录的很慢,要走GPU还需要安装CUDA对应版本的Pytouch

1
whisper test.m4a --model medium --language Chinese --model_dir L:\Whisper
  • 如果使用的模型第一次使用会先下载模型到本地

image-20250217011207189

需PyTorch才能跑GPU

安装PyTorch

到官网Start Locally | PyTorch选择安装对应CUDA版本的版本,官网CUDA目前到126

image-20250217014037544

1
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

太慢了,用国内源尝试,还是慢。。。

1
 pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu126 -i https://pypi.tuna.tsinghua.edu.cn/simple

image-20250217002240443

最终安装成功

注意安装之后是默认走CUDA,走GPU转录

如果要走CPU ,命令加上-- device cpu,CPU时可以加--threads 8指定线程数

测试验证

进入python,用以下命令测试,查看是否正常安装

1
2
3
import torch
print(torch.__version__)
print(torch.cuda.is_available())

image-20250217010606981

Whisper+GPU测试

音频测试

1
whisper test.m4a --model medium --language Chinese --model_dir L:\Whisper

如果不是N卡或者显存不够,可以用CPU跑,速度会慢很多。 用GPU的话速度会快一些,不过8G的GPU实测最多也就跑到medium的模型,因为Pytorch会占用内存

image-20250217013504350

清理了之后,勉强跑起来了,实测效果会比small的模型要好一些,不过也好的不多,见下图

  • 这是medium的

    image-20250217013612852

  • 这是small的

    image-20250217013724776

视频测试

1
whisper test.mp4 --model small --language Chinese --model_dir L:\Whisper

image-20250217020811042

看着是正常能直接透过FFmpeg去解析MP4文件的,默认生成所有格式的,如果只想生成某种格式的文件可以–output_format命令指定,格式如下

1
--output_format{txt,vtt,srt,tsv,json,a11}

LLM总结内容

实测Kimi的文章总结能力要比豆包强一些

image-20250217021905822

DeepSeek R1的结果也比较,而且DeepSeek可以识别tsv格式文件

image-20250217022520001

GUI工具

单独文档记录

做UI界面工具验证接口和相关功能;简化功能验证操作,半自动化,为后续全自动工作流做基础工作。

  • 转录部分效果
  • AI处理部分 image-20250224023358455

工作流

目前已经完成用GUI界面(代码)验证:音视频转录为文本文件 —> 再用LLM的API接口处理文本文件内容流程

下一步进行工作流的验证,还在学习中

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计