用 Autoresearch 令 Claude Code Skills 自動進化（入門版）

🕐 約 15 分鐘

🎯 簡介：Autoresearch 係咩、點解值得用

Karpathy 係邊位：Andrej Karpathy，OpenAI 創始成員、前 Tesla 自動駕駛主管，發佈咗呢個開源項目
核心理念：唔係人手改 prompt，而係畀 AI 一個目標同一個量化指標，讓佢自己 loop 搵最優解
配合 Claude Code 嘅優勢：完全免費（開源），唔使另外付 API 費用，但會消耗 Claude token
效果：從 baseline 開始，每次 loop 輸出質量穩步提升，overnight 自動跑

🗂️ GitHub 檔案結構（三個核心檔案）

train.py：Agent 嘅主戰場，每次 iteration 修改呢個，記錄「有效 vs 無效」嘅改動
program.md：Baseline 指令，Agent 根據你嘅要求更新，唔係每次由零開始
prepare.py：唔重要，忽略即可
安裝：VS Code + Claude Code extension → 用語音或文字叫 Claude Code 從 GitHub URL 下載 repo

✅ 最適合用 Autoresearch 嘅場景

快速 feedback：結果可以快速測試，唔係等幾個月先知成效
量化數據：有具體數字測試（open rate、conversion rate），唔係「感覺好唔好」
高可變性：平台有 API 讓 Agent 自動推送更改同收集結果
最佳例子：Cold email 序列、定價頁面轉化率、廣告文案 A/B、SEO 關鍵字優化

🏗️ 示範：建立 LinkedIn Outreach Skill

背景問題：現有 LinkedIn 訊息 spam 感重、AI 痕跡明顯、個人化太假
目標受眾：中小企老闆（水電工、牙醫、美容診所），推廣 Voice AI，以免費 demo 作 CTA
五個量化測試標準 — 必須全部係 binary 可驗證（True/False），唔可以係主觀判斷：
- ✔️ 針對收件人個人情況做個人化
- ✔️ 訊息長度 300 字以內
- ✔️ 只有一個清晰 CTA
- ✔️ 以價值先行，唔係以銷售先行
- ✔️ 零 Spam 詞彙
點解係呢 5 個而唔係「感覺好」：因為 loop 必須能自動判斷成功與否，主觀感覺無法自動化，binary 指標先可以 overnight 無人手跑

🔄 自動迭代 Loop 同 Eval Dashboard

自動化週期：每 5-30 分鐘一個循環，24/7 持續，唔需要人手在場
對比機制：每次 iteration 對比「有 skill」vs「無 skill」輸出，確保真係有進步
Eval Dashboard：追蹤唔同客群嘅表現（美容診所、電工、牙醫各自結果）、實驗編號
人手 feedback：可選擇加入 feedback 指引下一次 loop 方向
實驗規模：示範中跑咗 38-39 次實驗，VS Code workspace 實時更新

⚠️ 限制同架構總結

	Autoresearch Loop	人手調整
擅長	量化指標優化、格式規則、overnight 自動跑	主觀判斷、創意質量、感覺對唔對
唔適合	「感覺好啲」嘅目標、冇 API 嘅平台	大規模自動化、需要快速迭代
Token 消耗	高（每次 loop 都用）	低

Token 消耗提醒：唔係真正「免費」，視乎 plan 消耗速度唔同
最終建議：唔好只建立獨立 skills，要讓 skills 之間共享 context、互相連接，先係真正嘅 AI 系統