05 — 配置

所有运行时配置位于 config/default.yaml。配置由 vocal10n.config.get_config() 一次加载，返回支持点号键访问（如 cfg.get("stt.model_size")）和分节视图（cfg.section("stt")）的 Config 对象。

本章是各配置分节参考，默认值与当前仓库一致。

`pipeline`

顶层开关与节奏控制。

Key	Default	含义
`name`	`"Vocal10n"`	显示名称
`target_latency_ms`	`2500`	端到端软目标延迟
`enable_stt` / `enable_translation` / `enable_tts`	`false`	启动时模块开关（可由 UI 改写）
`enable_pending_translation`	`true`	翻译未确认文本（仅显示）
`enable_confirmed_translation`	`true`	翻译已确认文本（用于 TTS / 文件）
`tts_source`	`"confirmed"`	输入给 TTS 的文本：`confirmed` / `pending` / `both`
`translation_debounce_ms`	`150`	部分翻译防抖窗口
`confirmed_batch_delay_ms`	`400`	confirmed 批处理前延时
`tts_queue_max_size`	`10`	TTS 队列硬上限
`tts_queue_max_pending`	`3`	丢弃最旧项阈值（控延迟）
`max_buffer_age_s`	`2.0`	未确认缓冲强制刷新最大年龄
`min_clause_chars`	`8`	触发分句翻译的最小子句长度

`stt` — FasterWhisper

Key	Default	含义
`model_size`	`large-v3-turbo`	HF 模型 ID 或本地路径
`device`	`cuda`	传给 `WhisperModel`
`compute_type`	`int8_float16`	混合精度计算模式
`window_seconds`	`6.5`	滑动解码窗口
`confirm_threshold`	`0.3`	小于该尾部时长的片段视为 pending
`min_transcribe_duration`	`0.3`	最小触发转写音频时长
`max_segment_age`	`4.0`	超过该年龄强制确认
`sample_rate`	`16000`	采样率
`channels` / `chunk_duration`	`1` / `0.2`	采集通道与分块时长
`language`	`null`	`null` 自动检测，或 `"zh"`、`"en"`
`use_simplified_chinese`	`true`	繁转简
`initial_prompt_capacity`	`200`	注入 `initial_prompt` 术语上限
`beam_size`	`1`	默认贪心以提速

`translation` — Qwen3 / OpenAI 兼容后端

Key	Default	含义
`backend`	`local`	`local`=llama-cpp GGUF，`api`=OpenAI 兼容 HTTP
`model_path`	`models/llm/Qwen3-4B-Instruct-2507.Q4_K_M.gguf`	`backend=local` 时使用
`n_gpu_layers` / `n_ctx` / `n_batch` / `n_threads`	`-1`, `512`, `8`, `4`	llama.cpp 调优参数
`api_url` / `api_model` / `api_key` / `api_timeout`	本地 LM Studio 默认值	`backend=api` 时使用
`temperature` / `top_k` / `top_p` / `max_tokens`	`0.0`, `1`, `1.0`, `64`	偏确定性短输出
`target_latency_ms`	`200`	单次调用软目标延迟
`target_language`	`English`	目标显示语言（映射见 `languages`）
`auto_detect_source`	`true`	每次调用自动识别源语言
`context_window_size`	`2`	追加前序翻译对数量
`rag_threshold`	`100`	超过该词条数切向量检索

`tts` — GPT-SoVITS

Key	Default	含义
`api_host` / `api_port` / `api_timeout`	`127.0.0.1`, `9880`, `60`	子进程 HTTP 端点
`ref_audio_path` / `ref_audio_text` / `ref_audio_lang`	参考音频 + 文本 + `auto`	声音克隆参考
`output_lang`	`en`	合成语言代码
`streaming_mode`	`3`	SoVITS 流式块大小预设
`speed_factor`	`1.3`	播放速度倍率
`top_k` / `top_p` / `temperature`	`5`, `0.7`, `0.5`	采样参数
`text_split_method`	`cut0`	服务端分块策略
`batch_size`	`1`	单请求批量

`tts_qwen3` — Qwen3-TTS 后端

语音模式：

`voice_mode`	必需键
`clone`	`ref_audio_path`, `ref_audio_text`, `ref_audio_lang`
`speaker`	`speaker`（内置音色）+ 可选 `speaker_instruct`
`design`	`design_instruct`（自然语言描述）

其他参数与常见生成控制一致（top_k、top_p、temperature、max_new_tokens、dtype、use_flash_attn）。

`audio_output`

播放设备、采样率、缓冲大小、交叉淡化毫秒数。交叉淡化用于平滑连续 TTS 块的衔接。

`aec` — 声学回声消除

Key	Default	含义
`enabled`	`true`	总开关
`filter_taps`	`2048`	NLMS 滤波器长度（16 kHz 下约 128 ms）
`step_size`	`0.01`	NLMS μ（安全范围约 0.005–0.05）
`dt_threshold`	`3.0`	双讲门限：mic 明显高于估计回声时冻结自适应
`max_delay_ms`	`300.0`	互相关延迟搜索上限

理论见 07 — STT 模块。

`languages`

显示名到 ISO 语言码的映射，供语言选择器使用。

`obs`

叠加服务绑定地址、各语言字体、字号、颜色、描边、阴影。Browser Source URL 为 http://127.0.0.1:5124/。

`output`

输出开关：save_source_txt、save_source_srt、save_target_txt、save_target_srt、save_wav，以及输出目录 directory。

`logging`

level（INFO、DEBUG 等）和 show_latency / show_vram 指标开关。

05 — 配置

pipeline

stt — FasterWhisper

translation — Qwen3 / OpenAI 兼容后端

tts — GPT-SoVITS

tts_qwen3 — Qwen3-TTS 后端

audio_output

aec — 声学回声消除

languages

obs

output

logging