管道
工作原理
五个阶段,全部在您的 GPU 上本地运行 — 从麦克风到克隆音色,3 秒以内。
说话
麦克风以 16 kHz 采集音频。声学回声消除在音频到达识别器前去除 TTS 回放。
转录
FasterWhisper large-v3-turbo 通过 6.5 秒滑动解码窗口实时将语音转为文字。
翻译
Qwen3-4B(通过 llama.cpp 运行的本地 GGUF 模型)修正标点、注入词汇表术语并翻译到目标语言。
合成
GPT-SoVITS 从短参考片段生成克隆音色语音。Qwen3-TTS 可作为备选后端。
输出
翻译后的音频播放。实时字幕在 OBS 中显示。配对的 SRT 和 WAV 文件保存到磁盘。
功能
一条管道,全部搞定
所有组件均在本地运行 — 数据不离开您的机器。
实时语音识别
FasterWhisper large-v3-turbo,6.5 秒滑动解码窗口,幻觉过滤、音素去重和自动语言检测。
本地 LLM 翻译
Qwen3-4B-Instruct GGUF 通过 llama.cpp — 无需联网。兼容 OpenAI HTTP API 可作为备选后端。
克隆音色 TTS
GPT-SoVITS 从短参考片段克隆您的声音并朗读翻译文本。Qwen3-TTS 可作为备选。
OBS 集成
内置 HTTP 字幕服务器将实时文字流送到 OBS Browser Source。部分和确认翻译近实时更新。
词汇表与 RAG
将领域专用术语直接注入 STT 提示词和 LLM 上下文。大型词汇表自动触发向量检索。
3 秒以内延迟
三个模型共存于 12 GB GPU(合计约 9.5 GB)。精细调整的 VRAM 预算,可配置防抖动和批处理节奏。
硬件
系统要求
Vocal10n 在单台 Windows 机器上完全离线运行。
数据不离开您的系统。
| 操作系统 | Windows 10 / 11 |
| GPU | NVIDIA RTX 3060 12 GB 或更高 |
| CUDA | CUDA Toolkit 12.x |
| Python | Python 3.11 |
| 显存需求 | 约 9.5 GB(三个模型合计) |
| 磁盘空间 | 约 15 GB(模型 + 依赖) |
快速开始
开始使用
三步搞定。
克隆并配置环境
克隆仓库并运行配置脚本,自动创建两个虚拟环境。
git clone https://github.com/itsLittleKevin/Vocal10n.git
cd Vocal10n
.\setup_env.ps1 添加模型文件
下载三个模型文件并放置到 models/ 目录下对应的子目录中。
models/
├── llm/ ← Qwen3-4B-Instruct-2507.Q4_K_M.gguf
├── stt/ ← FasterWhisper large-v3-turbo(自动下载)
└── tts/ ← GPT-SoVITS 权重文件 启动
通过一条命令启动完整管道。UI 将打开并引导您选择音频设备。
.\start.ps1 - 计划中
训练管道
从会话输出(SRT + WAV)整理成标注训练数据集,支持批准/拒绝流程。
- 计划中
远程后端分离
将 STT、LLM 和 TTS 指向独立远程主机。TTS 和 LLM 的 HTTP 边界已存在。
- 计划中
无界面 / API 模式
非 Qt HTTP/WebSocket 入口,供浏览器、移动客户端和 OBS 共享同一后端。
- 计划中
多 GPU 分片
每模块独立设备选择,在 24 GB+ 机器上将 Whisper、Qwen3 和 SoVITS 固定到不同 GPU。
- 计划中
容器化
主应用和每个 TTS 后端的 Docker 镜像,以及用于连接所有服务的 Compose 文件。