WSL | MK's Lab

為什麼要自己跑 TTS？市面上的 TTS API 不缺——ElevenLabs、OpenAI TTS、Azure Speech。但如果你想要的是用自己的聲音說話，而且不想每個月付錢、不想把錄音傳到別人的 server，那選擇就少很多了。我的需求很簡單：讓我的 AI agent（跑在 OpenClaw 上）能用我的聲音回覆語音訊息。Agent 跑在 Oracle Cloud 的 ARM VPS 上，沒有 GPU。但家裡有一台 Windows 桌機，裝了 RTX 4070 Ti。所以架構很明確：VPS 負責 agent 邏輯，Windows 桌機負責 GPU 推理，中間用 SSH tunnel 串起來。聽起來簡單。實際上花了三代 TTS 模型、無數次 WSL 踩坑，才到今天穩定運作的狀態。第一代：Fish Speech（2025 年底） Fish Speech 是最早嘗試的方案。它支援 voice cloning，品質不錯，社群也活躍。部署在 WSL 上，port 8880，透過 autossh reverse tunnel 讓 VPS 能連到。一開始跑得還行，但遇到幾個問題：模型更新頻繁，API 不太穩定 VRAM 吃得多，跟其他任務搶資源後來有更好的選擇出現，就換了 Fish Speech 的功勞是：它驗證了整個架構是可行的——WoL 喚醒、WSL systemd、autossh tunnel、VPS 呼叫腳本這一整套 pipeline。後面換模型只需要改 server 端，其他都能重用。 ...