实时 · 本地 · 声音克隆

说一种语言。
听见另一种。

Vocal10n 是开源的全本地语音翻译管道。
STT → LLM 翻译 → 克隆音色 TTS — 单卡 GPU，3 秒内完成。

下载文档深入探索赞助

<3秒端到端延迟

12 GB 单块 GPU

100% 本地 — 无云端

管道

工作原理

五个阶段，全部在您的 GPU 上本地运行 — 从麦克风到克隆音色，3 秒以内。

说话

麦克风以 16 kHz 采集音频。声学回声消除在音频到达识别器前去除 TTS 回放。

转录

FasterWhisper large-v3-turbo 通过 6.5 秒滑动解码窗口实时将语音转为文字。

翻译

Qwen3-4B（通过 llama.cpp 运行的本地 GGUF 模型）修正标点、注入词汇表术语并翻译到目标语言。

合成

GPT-SoVITS 从短参考片段生成克隆音色语音。Qwen3-TTS 可作为备选后端。

输出

翻译后的音频播放。实时字幕在 OBS 中显示。配对的 SRT 和 WAV 文件保存到磁盘。

功能

一条管道，全部搞定

所有组件均在本地运行 — 数据不离开您的机器。

FasterWhisper

实时语音识别

FasterWhisper large-v3-turbo，6.5 秒滑动解码窗口，幻觉过滤、音素去重和自动语言检测。

Qwen3-4B

本地 LLM 翻译

Qwen3-4B-Instruct GGUF 通过 llama.cpp — 无需联网。兼容 OpenAI HTTP API 可作为备选后端。

GPT-SoVITS

克隆音色 TTS

GPT-SoVITS 从短参考片段克隆您的声音并朗读翻译文本。Qwen3-TTS 可作为备选。

Browser Source

OBS 集成

内置 HTTP 字幕服务器将实时文字流送到 OBS Browser Source。部分和确认翻译近实时更新。

知识库

词汇表与 RAG

将领域专用术语直接注入 STT 提示词和 LLM 上下文。大型词汇表自动触发向量检索。

RTX 3060 12 GB

3 秒以内延迟

三个模型共存于 12 GB GPU（合计约 9.5 GB）。精细调整的 VRAM 预算，可配置防抖动和批处理节奏。

硬件

系统要求

Vocal10n 在单台 Windows 机器上完全离线运行。
数据不离开您的系统。

所有模型均在本地运行。零云端依赖。

操作系统	Windows 10 / 11
GPU	NVIDIA RTX 3060 12 GB 或更高
CUDA	CUDA Toolkit 12.x
Python	Python 3.11
显存需求	约 9.5 GB（三个模型合计）
磁盘空间	约 15 GB（模型 + 依赖）

快速开始

开始使用

三步搞定。

克隆并配置环境

克隆仓库并运行配置脚本，自动创建两个虚拟环境。

powershell

git clone https://github.com/itsLittleKevin/Vocal10n.git
cd Vocal10n
.\setup_env.ps1

添加模型文件

下载三个模型文件并放置到 models/ 目录下对应的子目录中。

text

models/
├── llm/   ← Qwen3-4B-Instruct-2507.Q4_K_M.gguf
├── stt/   ← FasterWhisper large-v3-turbo（自动下载）
└── tts/   ← GPT-SoVITS 权重文件

启动

通过一条命令启动完整管道。UI 将打开并引导您选择音频设备。