15 — 延迟预算与调优

在参考机型 RTX 3060 12 GB 上，系统目标是：

预算拆分

阶段	典型值	主要受哪些参数影响
麦克风采样块	≤ 200 ms	`stt.chunk_duration`
STT partial	300–800 ms	`stt.window_seconds`、`stt.beam_size`、模型规模
STT confirmed	+300–700 ms	`stt.confirm_threshold`、`stt.max_segment_age`
LLM translation	100–250 ms	`translation.max_tokens`、`n_ctx`、prompt 长度
TTS TTFA	400–1500 ms	后端、`tts.streaming_mode`、分块/批量
播放启动	~50 ms	`audio_output.buffer_size`、`crossfade_ms`

这些延迟由 LatencyTracker 实时采样并展示在 Section A2。

compute_type：默认 int8_float16。Ampere 上切 int8 通常更省显存且略快；float16 更慢但可能略稳。
beam_size：默认 1（贪心）。增大 beam 常增加 100–300 ms，收益有限。
window_seconds：更短可降 partial 延迟，但长句连贯性会下降。6.5 秒是折中。
max_segment_age：53e3cbe 从 2.0 提到 4.0，减少句中强刷；如需更“跟手”可调低。

AEC 本身增加的音频路径延迟很小（每块一次 NLMS）。但它能避免 TTS 时“必须闭麦”的空白延迟。除非耳机已有强硬件回声消除，否则建议开启。