05 — 配置

所有运行时配置位于 config/default.yaml。配置由 vocal10n.config.get_config() 一次加载,返回支持点号键访问(如 cfg.get("stt.model_size"))和分节视图(cfg.section("stt"))的 Config 对象。

本章是各配置分节参考,默认值与当前仓库一致。

pipeline

顶层开关与节奏控制。

KeyDefault含义
name"Vocal10n"显示名称
target_latency_ms2500端到端软目标延迟
enable_stt / enable_translation / enable_ttsfalse启动时模块开关(可由 UI 改写)
enable_pending_translationtrue翻译未确认文本(仅显示)
enable_confirmed_translationtrue翻译已确认文本(用于 TTS / 文件)
tts_source"confirmed"输入给 TTS 的文本:confirmed / pending / both
translation_debounce_ms150部分翻译防抖窗口
confirmed_batch_delay_ms400confirmed 批处理前延时
tts_queue_max_size10TTS 队列硬上限
tts_queue_max_pending3丢弃最旧项阈值(控延迟)
max_buffer_age_s2.0未确认缓冲强制刷新最大年龄
min_clause_chars8触发分句翻译的最小子句长度

stt — FasterWhisper

KeyDefault含义
model_sizelarge-v3-turboHF 模型 ID 或本地路径
devicecuda传给 WhisperModel
compute_typeint8_float16混合精度计算模式
window_seconds6.5滑动解码窗口
confirm_threshold0.3小于该尾部时长的片段视为 pending
min_transcribe_duration0.3最小触发转写音频时长
max_segment_age4.0超过该年龄强制确认
sample_rate16000采样率
channels / chunk_duration1 / 0.2采集通道与分块时长
languagenullnull 自动检测,或 "zh""en"
use_simplified_chinesetrue繁转简
initial_prompt_capacity200注入 initial_prompt 术语上限
beam_size1默认贪心以提速

translation — Qwen3 / OpenAI 兼容后端

KeyDefault含义
backendlocallocal=llama-cpp GGUF,api=OpenAI 兼容 HTTP
model_pathmodels/llm/Qwen3-4B-Instruct-2507.Q4_K_M.ggufbackend=local 时使用
n_gpu_layers / n_ctx / n_batch / n_threads-1, 512, 8, 4llama.cpp 调优参数
api_url / api_model / api_key / api_timeout本地 LM Studio 默认值backend=api 时使用
temperature / top_k / top_p / max_tokens0.0, 1, 1.0, 64偏确定性短输出
target_latency_ms200单次调用软目标延迟
target_languageEnglish目标显示语言(映射见 languages
auto_detect_sourcetrue每次调用自动识别源语言
context_window_size2追加前序翻译对数量
rag_threshold100超过该词条数切向量检索

tts — GPT-SoVITS

KeyDefault含义
api_host / api_port / api_timeout127.0.0.1, 9880, 60子进程 HTTP 端点
ref_audio_path / ref_audio_text / ref_audio_lang参考音频 + 文本 + auto声音克隆参考
output_langen合成语言代码
streaming_mode3SoVITS 流式块大小预设
speed_factor1.3播放速度倍率
top_k / top_p / temperature5, 0.7, 0.5采样参数
text_split_methodcut0服务端分块策略
batch_size1单请求批量

tts_qwen3 — Qwen3-TTS 后端

语音模式:

voice_mode必需键
cloneref_audio_path, ref_audio_text, ref_audio_lang
speakerspeaker(内置音色)+ 可选 speaker_instruct
designdesign_instruct(自然语言描述)

其他参数与常见生成控制一致(top_ktop_ptemperaturemax_new_tokensdtypeuse_flash_attn)。

audio_output

播放设备、采样率、缓冲大小、交叉淡化毫秒数。交叉淡化用于平滑连续 TTS 块的衔接。

aec — 声学回声消除

KeyDefault含义
enabledtrue总开关
filter_taps2048NLMS 滤波器长度(16 kHz 下约 128 ms)
step_size0.01NLMS μ(安全范围约 0.005–0.05)
dt_threshold3.0双讲门限:mic 明显高于估计回声时冻结自适应
max_delay_ms300.0互相关延迟搜索上限

理论见 07 — STT 模块

languages

显示名到 ISO 语言码的映射,供语言选择器使用。

obs

叠加服务绑定地址、各语言字体、字号、颜色、描边、阴影。Browser Source URL 为 http://127.0.0.1:5124/

output

输出开关:save_source_txtsave_source_srtsave_target_txtsave_target_srtsave_wav,以及输出目录 directory

logging

levelINFODEBUG 等)和 show_latency / show_vram 指标开关。