01 — 概览

什么是 Vocal10n

Vocal10n 是一个在单台工作站本地运行的实时语音翻译系统。用户用一种语言说话后，系统会产生：

系统由三个本地模型组成：

阶段	模型	作用
STT	FasterWhisper `large-v3-turbo`	流式语音识别
LLM	Qwen3-4B-Instruct (Q4_K_M GGUF) + `llama-cpp-python`	标点修复 + 翻译
TTS	GPT-SoVITS（默认）或 Qwen3-TTS	声音克隆语音合成

端到端低延迟。 目标语音到语音延迟低于 3 秒，OBS 字幕延迟低于 1.5 秒。
单 GPU 运行。 三个模型需共存于 12 GB 显卡（参考 RTX 3060）上。显存预算约为 Whisper 2.5 GB + Qwen3 4 GB + GPT-SoVITS 3 GB ≈ 9.5 GB，并保留余量。
本地优先。 默认无需云调用。LLM 阶段可选 OpenAI 兼容 HTTP 后端。
模块可独立开关。 STT、LLM、TTS 可独立启停。关闭 STT 可当手动翻译器使用；关闭 LLM 可仅输出 STT；仅启用 TTS 可作为变声/TTS 试验环境。
双模式体验。 Pro 模式暴露全部参数，Simple 模式收敛为一键 Start All / Stop All。