08 — LLM 翻译模块

源码目录：src/vocal10n/llm/。

职责

LLM 阶段对转写流执行两类任务：

默认由同一个 Qwen3-4B 实例处理两类调用。在 n_ctx=512 下，单次调用开销通常低于 translation.target_latency_ms 预算。

engine.py：本地 GGUF（llama-cpp-python）后端。
api_backend.py：OpenAI 兼容 HTTP 后端（LM Studio、Ollama OpenAI shim、vLLM、OpenAI 等），使用 translation.api_* 配置。

由 translation.backend 选择当前后端。LLM 页可在运行中切换后端，controller 会热切换实现并保留 prompt 与 KB 状态。

采用 ChatML 风格消息，并以 assistant 提示结尾。该格式在 Qwen3-4B-Instruct 上可稳定生成非 JSON 的短翻译输出。构建逻辑位于 translator.py，包含：

默认生成参数（temperature=0.0、top_k=1、top_p=1.0、max_tokens=64）强调确定性与低延迟。

corrector.py 在翻译前执行（启用时）：

将修正流程与翻译流程拆分，可保持翻译调用短而稳定。

当挂载词汇表条目超过 translation.rag_threshold 时，启用 rag.py：

这样在大词库（数千词）下仍可控制上下文长度。

controller.py 与 dispatcher 的衔接包括：

手动输入模式（无 STT）也复用该入口；当 STT 关闭时，不再依赖 confirmed 事件门控输出。