用 Autoresearch 令 Claude Code Skills 自動進化(入門版)

🕐 約 15 分鐘


🎯 簡介:Autoresearch 係咩、點解值得用

  • Karpathy 係邊位:Andrej Karpathy,OpenAI 創始成員、前 Tesla 自動駕駛主管,發佈咗呢個開源項目
  • 核心理念:唔係人手改 prompt,而係畀 AI 一個目標同一個量化指標,讓佢自己 loop 搵最優解
  • 配合 Claude Code 嘅優勢:完全免費(開源),唔使另外付 API 費用,但會消耗 Claude token
  • 效果:從 baseline 開始,每次 loop 輸出質量穩步提升,overnight 自動跑

🗂️ GitHub 檔案結構(三個核心檔案)

  • train.py:Agent 嘅主戰場,每次 iteration 修改呢個,記錄「有效 vs 無效」嘅改動
  • program.md:Baseline 指令,Agent 根據你嘅要求更新,唔係每次由零開始
  • prepare.py:唔重要,忽略即可
  • 安裝:VS Code + Claude Code extension → 用語音或文字叫 Claude Code 從 GitHub URL 下載 repo

最適合用 Autoresearch 嘅場景

  • 快速 feedback:結果可以快速測試,唔係等幾個月先知成效
  • 量化數據:有具體數字測試(open rate、conversion rate),唔係「感覺好唔好」
  • 高可變性:平台有 API 讓 Agent 自動推送更改同收集結果
  • 最佳例子:Cold email 序列、定價頁面轉化率、廣告文案 A/B、SEO 關鍵字優化

🏗️ 示範:建立 LinkedIn Outreach Skill

  • 背景問題:現有 LinkedIn 訊息 spam 感重、AI 痕跡明顯、個人化太假
  • 目標受眾:中小企老闆(水電工、牙醫、美容診所),推廣 Voice AI,以免費 demo 作 CTA
  • 五個量化測試標準 — 必須全部係 binary 可驗證(True/False),唔可以係主觀判斷:
    • ✔️ 針對收件人個人情況做個人化
    • ✔️ 訊息長度 300 字以內
    • ✔️ 只有一個清晰 CTA
    • ✔️ 以價值先行,唔係以銷售先行
    • ✔️ 零 Spam 詞彙
  • 點解係呢 5 個而唔係「感覺好」:因為 loop 必須能自動判斷成功與否,主觀感覺無法自動化,binary 指標先可以 overnight 無人手跑

🔄 自動迭代 Loop 同 Eval Dashboard

  • 自動化週期:每 5-30 分鐘一個循環,24/7 持續,唔需要人手在場
  • 對比機制:每次 iteration 對比「有 skill」vs「無 skill」輸出,確保真係有進步
  • Eval Dashboard:追蹤唔同客群嘅表現(美容診所、電工、牙醫各自結果)、實驗編號
  • 人手 feedback:可選擇加入 feedback 指引下一次 loop 方向
  • 實驗規模:示範中跑咗 38-39 次實驗,VS Code workspace 實時更新

⚠️ 限制同架構總結

Autoresearch Loop人手調整
擅長量化指標優化、格式規則、overnight 自動跑主觀判斷、創意質量、感覺對唔對
唔適合「感覺好啲」嘅目標、冇 API 嘅平台大規模自動化、需要快速迭代
Token 消耗高(每次 loop 都用)
  • Token 消耗提醒:唔係真正「免費」,視乎 plan 消耗速度唔同
  • 最終建議:唔好只建立獨立 skills,要讓 skills 之間共享 context、互相連接,先係真正嘅 AI 系統