实时 · 本地 · 声音克隆

说一种语言。
听见另一种。

Vocal10n 是开源的全本地语音翻译管道。
STT → LLM 翻译 → 克隆音色 TTS — 单卡 GPU,3 秒内完成。

<3秒 端到端延迟
12 GB 单块 GPU
100% 本地 — 无云端

管道

工作原理

五个阶段,全部在您的 GPU 上本地运行 — 从麦克风到克隆音色,3 秒以内。

01

说话

麦克风以 16 kHz 采集音频。声学回声消除在音频到达识别器前去除 TTS 回放。

02

转录

FasterWhisper large-v3-turbo 通过 6.5 秒滑动解码窗口实时将语音转为文字。

03

翻译

Qwen3-4B(通过 llama.cpp 运行的本地 GGUF 模型)修正标点、注入词汇表术语并翻译到目标语言。

04

合成

GPT-SoVITS 从短参考片段生成克隆音色语音。Qwen3-TTS 可作为备选后端。

05

输出

翻译后的音频播放。实时字幕在 OBS 中显示。配对的 SRT 和 WAV 文件保存到磁盘。

功能

一条管道,全部搞定

所有组件均在本地运行 — 数据不离开您的机器。

FasterWhisper

实时语音识别

FasterWhisper large-v3-turbo,6.5 秒滑动解码窗口,幻觉过滤、音素去重和自动语言检测。

Qwen3-4B

本地 LLM 翻译

Qwen3-4B-Instruct GGUF 通过 llama.cpp — 无需联网。兼容 OpenAI HTTP API 可作为备选后端。

GPT-SoVITS

克隆音色 TTS

GPT-SoVITS 从短参考片段克隆您的声音并朗读翻译文本。Qwen3-TTS 可作为备选。

Browser Source

OBS 集成

内置 HTTP 字幕服务器将实时文字流送到 OBS Browser Source。部分和确认翻译近实时更新。

知识库

词汇表与 RAG

将领域专用术语直接注入 STT 提示词和 LLM 上下文。大型词汇表自动触发向量检索。

RTX 3060 12 GB

3 秒以内延迟

三个模型共存于 12 GB GPU(合计约 9.5 GB)。精细调整的 VRAM 预算,可配置防抖动和批处理节奏。

硬件

系统要求

Vocal10n 在单台 Windows 机器上完全离线运行。
数据不离开您的系统。

所有模型均在本地运行。零云端依赖。
操作系统 Windows 10 / 11
GPU NVIDIA RTX 3060 12 GB 或更高
CUDA CUDA Toolkit 12.x
Python Python 3.11
显存需求 约 9.5 GB(三个模型合计)
磁盘空间 约 15 GB(模型 + 依赖)

快速开始

开始使用

三步搞定。

1

克隆并配置环境

克隆仓库并运行配置脚本,自动创建两个虚拟环境。

powershell
git clone https://github.com/itsLittleKevin/Vocal10n.git
cd Vocal10n
.\setup_env.ps1
2

添加模型文件

下载三个模型文件并放置到 models/ 目录下对应的子目录中。

text
models/
├── llm/   ← Qwen3-4B-Instruct-2507.Q4_K_M.gguf
├── stt/   ← FasterWhisper large-v3-turbo(自动下载)
└── tts/   ← GPT-SoVITS 权重文件
3

启动

通过一条命令启动完整管道。UI 将打开并引导您选择音频设备。

powershell
.\start.ps1

路线图

即将推出

开发持续进行中。欢迎贡献。

完整路线图
  • 计划中

    训练管道

    从会话输出(SRT + WAV)整理成标注训练数据集,支持批准/拒绝流程。

  • 计划中

    远程后端分离

    将 STT、LLM 和 TTS 指向独立远程主机。TTS 和 LLM 的 HTTP 边界已存在。

  • 计划中

    无界面 / API 模式

    非 Qt HTTP/WebSocket 入口,供浏览器、移动客户端和 OBS 共享同一后端。

  • 计划中

    多 GPU 分片

    每模块独立设备选择,在 24 GB+ 机器上将 Whisper、Qwen3 和 SoVITS 固定到不同 GPU。

  • 计划中

    容器化

    主应用和每个 TTS 后端的 Docker 镜像,以及用于连接所有服务的 Compose 文件。