在 WSL 上跑 Qwen3-TTS Voice Clone:從 Fish Speech 到三代 TTS 的踩坑之旅

在 WSL 上跑 Qwen3-TTS Voice Clone:從 Fish Speech 到三代 TTS 的踩坑之旅

為什麼要自己跑 TTS? 市面上的 TTS API 不缺——ElevenLabs、OpenAI TTS、Azure Speech。但如果你想要的是用自己的聲音說話,而且不想每個月付錢、不想把錄音傳到別人的 server,那選擇就少很多了。 我的需求很簡單:讓我的 AI agent(跑在 OpenClaw 上)能用我的聲音回覆語音訊息。Agent 跑在 Oracle Cloud 的 ARM VPS 上,沒有 GPU。但家裡有一台 Windows 桌機,裝了 RTX 4070 Ti。 所以架構很明確:VPS 負責 agent 邏輯,Windows 桌機負責 GPU 推理,中間用 SSH tunnel 串起來。 聽起來簡單。實際上花了三代 TTS 模型、無數次 WSL 踩坑,才到今天穩定運作的狀態。 第一代:Fish Speech(2025 年底) Fish Speech 是最早嘗試的方案。它支援 voice cloning,品質不錯,社群也活躍。 部署在 WSL 上,port 8880,透過 autossh reverse tunnel 讓 VPS 能連到。一開始跑得還行,但遇到幾個問題: 模型更新頻繁,API 不太穩定 VRAM 吃得多,跟其他任務搶資源 後來有更好的選擇出現,就換了 Fish Speech 的功勞是:它驗證了整個架構是可行的——WoL 喚醒、WSL systemd、autossh tunnel、VPS 呼叫腳本這一整套 pipeline。後面換模型只需要改 server 端,其他都能重用。 ...

February 19, 2026 · 4 分鐘 · Mark Lee