用 Autoresearch 令 Claude Code Skills 自動進化(入門版)
🕐 約 15 分鐘
🎯 簡介:Autoresearch 係咩、點解值得用
- Karpathy 係邊位:Andrej Karpathy,OpenAI 創始成員、前 Tesla 自動駕駛主管,發佈咗呢個開源項目
- 核心理念:唔係人手改 prompt,而係畀 AI 一個目標同一個量化指標,讓佢自己 loop 搵最優解
- 配合 Claude Code 嘅優勢:完全免費(開源),唔使另外付 API 費用,但會消耗 Claude token
- 效果:從 baseline 開始,每次 loop 輸出質量穩步提升,overnight 自動跑
🗂️ GitHub 檔案結構(三個核心檔案)
train.py:Agent 嘅主戰場,每次 iteration 修改呢個,記錄「有效 vs 無效」嘅改動program.md:Baseline 指令,Agent 根據你嘅要求更新,唔係每次由零開始prepare.py:唔重要,忽略即可- 安裝:VS Code + Claude Code extension → 用語音或文字叫 Claude Code 從 GitHub URL 下載 repo
✅ 最適合用 Autoresearch 嘅場景
- 快速 feedback:結果可以快速測試,唔係等幾個月先知成效
- 量化數據:有具體數字測試(open rate、conversion rate),唔係「感覺好唔好」
- 高可變性:平台有 API 讓 Agent 自動推送更改同收集結果
- 最佳例子:Cold email 序列、定價頁面轉化率、廣告文案 A/B、SEO 關鍵字優化
🏗️ 示範:建立 LinkedIn Outreach Skill
- 背景問題:現有 LinkedIn 訊息 spam 感重、AI 痕跡明顯、個人化太假
- 目標受眾:中小企老闆(水電工、牙醫、美容診所),推廣 Voice AI,以免費 demo 作 CTA
- 五個量化測試標準 — 必須全部係 binary 可驗證(True/False),唔可以係主觀判斷:
- ✔️ 針對收件人個人情況做個人化
- ✔️ 訊息長度 300 字以內
- ✔️ 只有一個清晰 CTA
- ✔️ 以價值先行,唔係以銷售先行
- ✔️ 零 Spam 詞彙
- 點解係呢 5 個而唔係「感覺好」:因為 loop 必須能自動判斷成功與否,主觀感覺無法自動化,binary 指標先可以 overnight 無人手跑
🔄 自動迭代 Loop 同 Eval Dashboard
- 自動化週期:每 5-30 分鐘一個循環,24/7 持續,唔需要人手在場
- 對比機制:每次 iteration 對比「有 skill」vs「無 skill」輸出,確保真係有進步
- Eval Dashboard:追蹤唔同客群嘅表現(美容診所、電工、牙醫各自結果)、實驗編號
- 人手 feedback:可選擇加入 feedback 指引下一次 loop 方向
- 實驗規模:示範中跑咗 38-39 次實驗,VS Code workspace 實時更新
⚠️ 限制同架構總結
| Autoresearch Loop | 人手調整 | |
|---|---|---|
| 擅長 | 量化指標優化、格式規則、overnight 自動跑 | 主觀判斷、創意質量、感覺對唔對 |
| 唔適合 | 「感覺好啲」嘅目標、冇 API 嘅平台 | 大規模自動化、需要快速迭代 |
| Token 消耗 | 高(每次 loop 都用) | 低 |
- Token 消耗提醒:唔係真正「免費」,視乎 plan 消耗速度唔同
- 最終建議:唔好只建立獨立 skills,要讓 skills 之間共享 context、互相連接,先係真正嘅 AI 系統