05 — 配置
所有运行时配置位于 config/default.yaml。配置由 vocal10n.config.get_config() 一次加载,返回支持点号键访问(如 cfg.get("stt.model_size"))和分节视图(cfg.section("stt"))的 Config 对象。
本章是各配置分节参考,默认值与当前仓库一致。
pipeline
顶层开关与节奏控制。
| Key | Default | 含义 |
|---|---|---|
name | "Vocal10n" | 显示名称 |
target_latency_ms | 2500 | 端到端软目标延迟 |
enable_stt / enable_translation / enable_tts | false | 启动时模块开关(可由 UI 改写) |
enable_pending_translation | true | 翻译未确认文本(仅显示) |
enable_confirmed_translation | true | 翻译已确认文本(用于 TTS / 文件) |
tts_source | "confirmed" | 输入给 TTS 的文本:confirmed / pending / both |
translation_debounce_ms | 150 | 部分翻译防抖窗口 |
confirmed_batch_delay_ms | 400 | confirmed 批处理前延时 |
tts_queue_max_size | 10 | TTS 队列硬上限 |
tts_queue_max_pending | 3 | 丢弃最旧项阈值(控延迟) |
max_buffer_age_s | 2.0 | 未确认缓冲强制刷新最大年龄 |
min_clause_chars | 8 | 触发分句翻译的最小子句长度 |
stt — FasterWhisper
| Key | Default | 含义 |
|---|---|---|
model_size | large-v3-turbo | HF 模型 ID 或本地路径 |
device | cuda | 传给 WhisperModel |
compute_type | int8_float16 | 混合精度计算模式 |
window_seconds | 6.5 | 滑动解码窗口 |
confirm_threshold | 0.3 | 小于该尾部时长的片段视为 pending |
min_transcribe_duration | 0.3 | 最小触发转写音频时长 |
max_segment_age | 4.0 | 超过该年龄强制确认 |
sample_rate | 16000 | 采样率 |
channels / chunk_duration | 1 / 0.2 | 采集通道与分块时长 |
language | null | null 自动检测,或 "zh"、"en" |
use_simplified_chinese | true | 繁转简 |
initial_prompt_capacity | 200 | 注入 initial_prompt 术语上限 |
beam_size | 1 | 默认贪心以提速 |
translation — Qwen3 / OpenAI 兼容后端
| Key | Default | 含义 |
|---|---|---|
backend | local | local=llama-cpp GGUF,api=OpenAI 兼容 HTTP |
model_path | models/llm/Qwen3-4B-Instruct-2507.Q4_K_M.gguf | backend=local 时使用 |
n_gpu_layers / n_ctx / n_batch / n_threads | -1, 512, 8, 4 | llama.cpp 调优参数 |
api_url / api_model / api_key / api_timeout | 本地 LM Studio 默认值 | backend=api 时使用 |
temperature / top_k / top_p / max_tokens | 0.0, 1, 1.0, 64 | 偏确定性短输出 |
target_latency_ms | 200 | 单次调用软目标延迟 |
target_language | English | 目标显示语言(映射见 languages) |
auto_detect_source | true | 每次调用自动识别源语言 |
context_window_size | 2 | 追加前序翻译对数量 |
rag_threshold | 100 | 超过该词条数切向量检索 |
tts — GPT-SoVITS
| Key | Default | 含义 |
|---|---|---|
api_host / api_port / api_timeout | 127.0.0.1, 9880, 60 | 子进程 HTTP 端点 |
ref_audio_path / ref_audio_text / ref_audio_lang | 参考音频 + 文本 + auto | 声音克隆参考 |
output_lang | en | 合成语言代码 |
streaming_mode | 3 | SoVITS 流式块大小预设 |
speed_factor | 1.3 | 播放速度倍率 |
top_k / top_p / temperature | 5, 0.7, 0.5 | 采样参数 |
text_split_method | cut0 | 服务端分块策略 |
batch_size | 1 | 单请求批量 |
tts_qwen3 — Qwen3-TTS 后端
语音模式:
voice_mode | 必需键 |
|---|---|
clone | ref_audio_path, ref_audio_text, ref_audio_lang |
speaker | speaker(内置音色)+ 可选 speaker_instruct |
design | design_instruct(自然语言描述) |
其他参数与常见生成控制一致(top_k、top_p、temperature、max_new_tokens、dtype、use_flash_attn)。
audio_output
播放设备、采样率、缓冲大小、交叉淡化毫秒数。交叉淡化用于平滑连续 TTS 块的衔接。
aec — 声学回声消除
| Key | Default | 含义 |
|---|---|---|
enabled | true | 总开关 |
filter_taps | 2048 | NLMS 滤波器长度(16 kHz 下约 128 ms) |
step_size | 0.01 | NLMS μ(安全范围约 0.005–0.05) |
dt_threshold | 3.0 | 双讲门限:mic 明显高于估计回声时冻结自适应 |
max_delay_ms | 300.0 | 互相关延迟搜索上限 |
理论见 07 — STT 模块。
languages
显示名到 ISO 语言码的映射,供语言选择器使用。
obs
叠加服务绑定地址、各语言字体、字号、颜色、描边、阴影。Browser Source URL 为 http://127.0.0.1:5124/。
output
输出开关:save_source_txt、save_source_srt、save_target_txt、save_target_srt、save_wav,以及输出目录 directory。
logging
level(INFO、DEBUG 等)和 show_latency / show_vram 指标开关。