讓 AI Agent 的技能自我進化:用 GEPA 自動優化 SKILL.md

讓 AI Agent 的技能自我進化:用 GEPA 自動優化 SKILL.md

問題:SKILL.md 靠人工調校太慢 OpenClaw 的 skill 系統靠 SKILL.md 指引 agent 行為——什麼時候觸發、怎麼執行、輸出什麼格式。寫得好,agent 就穩定;寫得差,每次跑出來的品質都不一樣。 我的 workspace 裝了二十多個 skill,平時靠「出問題 → 改一行 → 觀察幾天 → 再改」的方式迭代。這種人工調校有兩個問題: 回饋週期太長。 改了一行要等幾天才知道有沒有效果。 靠直覺不靠數據。 改完「感覺比較好」,但沒有量化指標。 如果能讓 LLM 自己評估 SKILL.md 的效果,再自動改進,迭代速度會快很多。 靈感:GEPA(ICLR 2026) 逛 GitHub 時發現 NousResearch 的 hermes-agent,裡面有一套 self-evolution 機制,核心引用了 GEPA 這篇論文(Genetic Prompt Evolution with NL Reflection,ICLR 2026 Oral)。 GEPA 的概念不複雜: 評估:用 LLM 打分(而不是人類標註) 反思:讓 LLM 自己分析「哪裡扣分了、為什麼」 變異:根據反思結果修改 prompt 選擇:保留最高分的版本,淘汰退步的 跟 RLHF 不同,整個過程只需要 API call,不需要 GPU 做 gradient update。論文宣稱比 GRPO 少 35 倍 rollouts。 ...

March 24, 2026 · 3 分鐘 · Mark Lee