Voice Recognition to Text Tool / 一个离线运行的本地语音识别转文字服务,输出json、srt字幕带时间戳、纯文字格式
百度网盘: https://pan.baidu.com/s/1ASYA_sQRlRKsXuyz6NBKNA?pwd=38eq
GitHub: https://github.com/jianchang512/stt/releases/download/v0.92/stt-v0.92.7z
解压到英文目录下,双击 start.exe, 在打开的页面中上传音频视频文件识别 extract to folder and doubleclick start.exe, wait unitl open webbrowser
add more param at the set.ini for whisper model
百度网盘: https://pan.baidu.com/s/1oAeBvVcNv3HP2QWa3uiilg?pwd=efvc
GitHub: https://github.com/jianchang512/stt/releases/download/v0.91/sttv-0.91.7z
解压到英文目录下,双击 start.exe, 在打开的页面中上传音频视频文件识别 extract to folder and doubleclick start.exe, wait unitl open webbrowser
devtype=cpu
为 devtype=cuda
,并重新启动,可使用cuda加速百度网盘: https://pan.baidu.com/s/1am6RNTwR9cfA3_EKwyTLxg?pwd=cvrd
GitHub: https://github.com/jianchang512/stt/releases/download/v0.0.6/sttv0.0.6.7z
解压到英文目录下,双击 start.exe, 在打开的页面中上传音频视频文件识别 extract to folder and doubleclick start.exe, wait unitl open webbrowser
解压到英文目录下,双击 start.exe, 在打开的页面中上传音频视频文件识别
tiny 模型下载64MB tiny.en 模型下载64MB
base 模型下载 124MB base.en 模型下载 124MB
small 模型下载 415MB small 模型百度网盘 small.en 模型下载 415MB
medium 模型下载 1.27G medium 模型百度网盘 medium.en 模型下载 1.27G
large-v1 模型百度网盘 large-v1 模型下载-墙外
large-v2 模型下载-墙外 large-v2 模型百度网盘
large-v3 模型下载-墙外 large-v3 模型百度网盘
distil-whisper-small.en 模型下载 282MB
distil-whisper-medium.en 模型下载 671MB distil-medium模型百度网盘
distil-whisper-large-v2 模型下载 1.27G distil-large-v2模型百度网盘
distil-whisper-large-v3 模型下载 1.3G distil-whisper-large-v3百度网盘
下载后解压,将压缩包内的"models--Systran--faster-xx"文件夹复制到models目录内,解压复制后 models 目录下文件夹列表如下
压缩包内容
正确放置后的 models 目录下的文件夹列表
下载后将pt文件放到软件目录下的models文件夹内
下载cuBLAS dll 文件 如果遇到 "cublasxxx.dll不存在",请下载该文件,然后将里面的dll文件复制到 C:/Windows/System32 目录下
下载后解压,得到一个 uvr5_weights
文件夹,将该文件夹复制到视频翻译配音软件根目录下。