01 — 概览
什么是 Vocal10n
Vocal10n 是一个在单台工作站本地运行的实时语音翻译系统。用户用一种语言说话后,系统会产生:
- 源语言实时字幕(流式、部分结果)。
- 源语言修正后的转写文本(带标点)。
- 目标语言翻译文本。
- 使用声音克隆生成的目标语言语音。
- 可选的 OBS Browser Source 叠加字幕(用于直播/录制)。
- 可选写入到 output/ 的 .srt、.txt 与 .wav 文件。
系统由三个本地模型组成:
| 阶段 | 模型 | 作用 |
|---|---|---|
| STT | FasterWhisper large-v3-turbo | 流式语音识别 |
| LLM | Qwen3-4B-Instruct (Q4_K_M GGUF) + llama-cpp-python | 标点修复 + 翻译 |
| TTS | GPT-SoVITS(默认)或 Qwen3-TTS | 声音克隆语音合成 |
设计目标
- 端到端低延迟。 目标语音到语音延迟低于 3 秒,OBS 字幕延迟低于 1.5 秒。
- 单 GPU 运行。 三个模型需共存于 12 GB 显卡(参考 RTX 3060)上。显存预算约为 Whisper 2.5 GB + Qwen3 4 GB + GPT-SoVITS 3 GB ≈ 9.5 GB,并保留余量。
- 本地优先。 默认无需云调用。LLM 阶段可选 OpenAI 兼容 HTTP 后端。
- 模块可独立开关。 STT、LLM、TTS 可独立启停。关闭 STT 可当手动翻译器使用;关闭 LLM 可仅输出 STT;仅启用 TTS 可作为变声/TTS 试验环境。
- 双模式体验。 Pro 模式暴露全部参数,Simple 模式收敛为一键 Start All / Stop All。
目标硬件与系统
- Windows 10 / 11。
- 支持 CUDA 12.x 的 NVIDIA GPU(推荐 RTX 3060 12 GB 或更高)。
- Python 3.11。
- 自动创建两个虚拟环境:
venv_main(主应用)与venv_tts(GPT-SoVITS 子进程服务)。
Vocal10n 不是什么
- 不是会议转录产品:除可选说话人标记外,不提供完整多通道说话人分离流水线。
- 不是云翻译外壳:虽然支持 OpenAI 兼容后端,但默认流程完全本地。
- 不是 TTS 训练工具:可导出 WAV + SRT 作为下游训练数据,但训练过程本身不在本项目范围内。