18 — 路线图与开放事项

以下条目基于 simple_ui_plan.mdsimple_ui_validation.md、提交历史中延期的 Phase 标记,以及源码中的 TODO 缺口整理。

已跟踪

  • Simple 模式验证矩阵收尾。 simple_ui_validation.md 仍有未勾选项(如 “Execute validation matrix and final QA”),发布前需完整跑通组合用例。
  • Simple 偏好持久化。 计划第三阶段要求保存上次 Simple 模式选择与参数,当前仅部分完成。

已规划(未完成)

训练流水线

Training 页(vocal10n.ui.tabs.training_tab)与 output/training_data/ 目前是占位,核心能力尚未接线。计划范围:

  • 会话输出数据集整理。output/ 选择 *_source.srt 与匹配 WAV(可含 target SRT)整理到 training/,并在 Training 页支持逐片段通过/拒绝/编辑。
  • STT 校正闭环。 收集用户对源文本修订,产出(音频, 修正文本)样本,反哺过滤词表、术语文件,后续可用于 Whisper 微调。
  • 词汇表挖掘。 识别高频误译片段,一键提升到 knowledge_base/glossary_general.txt
  • 参考音频构建。 从会话录音切出高质量片段,写入 reference_audio/ 供 GPT-SoVITS / Qwen3-TTS 使用。
  • 可选微调挂钩。 为上游训练脚本提供轻封装(FasterWhisper / GPT-SoVITS),在各自 venv 中离线执行。

可扩展部署

当前默认单机单 GPU。后续方向:

  • 远程后端拆分。 让 STT、LLM、TTS 可分别指向远程主机而非 127.0.0.1。TTS 与可选 LLM 已有 HTTP 边界,STT 仍需同等抽象。
  • 多 GPU 分片。config/default.yaml 增加模块级 device 选择,大显存机器可把 Whisper/Qwen3/SoVITS 显式分配到不同 GPU。
  • 容器化。 利用 vendor/GPT-SoVITS/ 现有 Dockerfile,提供主应用与各 TTS 后端镜像及 compose 编排。
  • 无界面 API 模式。 增加非 Qt 入口,通过 HTTP/WebSocket 对外暴露 pipeline,供浏览器/OBS-only/移动端等薄客户端共享后端。
  • 跨平台打包。 先补齐 Linux 无界面模式,再推进 GUI 同步。

其他改进方向

  • Simple 模式语言对精简。 当前直接映射 languages,后续可提供精简候选集降低决策负担。
  • 按后端暴露预热预算。 现阶段超时预算写在代码里,可考虑放入 config/default.yaml 便于慢机器调优。
  • AEC 自检。 通过已知信号回放估计回声路径收敛与残差,帮助用户验证麦克风/扬声器配置。
  • Output 预设。 增加 “仅字幕”“字幕+音频”“全部输出” 一键预设,联动五个 output.* 开关。

当前阶段暂不纳入

  • 单会话内多源语言自动切换。
  • LLM 后端热切换且完全不丢上下文。
  • macOS 全量 GUI 对齐 Windows。

给后续贡献者的建议

  • 保持 module-controller-tab 边界:tab 不应直接调用 engine,而应调用 controller,再由 controller 交互 SystemState 与 dispatcher。
  • 新后端(如新 TTS)建议复用 qwen3_* 三件套:*_server.py*_client.py*_controller.py,并提供可被容器 tab 切换的 tab 模块。
  • 新事件类型需同时更新 vocal10n.constants.EventType,并保持 dispatcher 无环。当前事件 DAG 是 STT → Translation → TTS/Files/OBS。
  • 长耗时任务必须在 worker 线程中执行,确保 Qt 事件循环始终响应。Simple 模式分阶段启动是推荐范式。