GEPA | MK's Lab

問題：SKILL.md 靠人工調校太慢 OpenClaw 的 skill 系統靠 SKILL.md 指引 agent 行為——什麼時候觸發、怎麼執行、輸出什麼格式。寫得好，agent 就穩定；寫得差，每次跑出來的品質都不一樣。我的 workspace 裝了二十多個 skill，平時靠「出問題 → 改一行 → 觀察幾天 → 再改」的方式迭代。這種人工調校有兩個問題：回饋週期太長。改了一行要等幾天才知道有沒有效果。靠直覺不靠數據。改完「感覺比較好」，但沒有量化指標。如果能讓 LLM 自己評估 SKILL.md 的效果，再自動改進，迭代速度會快很多。靈感：GEPA（ICLR 2026）逛 GitHub 時發現 NousResearch 的 hermes-agent，裡面有一套 self-evolution 機制，核心引用了 GEPA 這篇論文（Genetic Prompt Evolution with NL Reflection，ICLR 2026 Oral）。 GEPA 的概念不複雜：評估：用 LLM 打分（而不是人類標註）反思：讓 LLM 自己分析「哪裡扣分了、為什麼」變異：根據反思結果修改 prompt 選擇：保留最高分的版本，淘汰退步的跟 RLHF 不同，整個過程只需要 API call，不需要 GPU 做 gradient update。論文宣稱比 GRPO 少 35 倍 rollouts。 ...