Graphify — 將代碼庫編譯成知識圖譜(Claude Code 終極進化)


🧠 背景與定位:Karpathy 工作流的進化版

  • 起源:Graphify 係受 Andre Karpathy 爆火嘅個人知識庫工作流啟發而生嘅開源工具
  • 核心差異:Karpathy 嘅方法係用 LLM 持續將原始素材編譯成 Markdown wiki;Graphify 則直接將 raw data 編譯成結構化 NetworkX 知識圖譜
  • 定位:AI 助手嘅「side tool」,可以喺 Claude Code、Codex、OpenCode、OpenClaw 等環境中使用
  • 三個飛躍:從平面 wiki → 關係圖譜;從 LLM 索引 → AST + 語意雙通道;從人工維護 → 算法發現

🏗️ 四層架構拆解

  • 輸入層:文件檢測、OCR 攝入、語意緩存,自動分類 13 種代碼及文檔論文圖片
  • 核心處理層:確定性 AST 解析(唔需要 LLM token,零消耗)+ 並行 agent 語意提取(支持文檔、論文、圖片)
  • 分析層:社區發現、結果分析、token 基準測試
  • 輸出層:審計報告、多格式導出、支持可視化

為咩要喺 Claude Code 用 Graphify

  • 問題所在:Claude Code 自帶嘅係線性文件驅動嘅對話記憶系統(flatten wiki)
  • Graphify 升級:置入持久化知識圖譜能力,將 Claude Code 從 glob/grep 文件搜索升級成圖驅動結構導航
  • 實際好處:快速上手陌生大型代碼庫、大幅節省 token、精準回答問題、發現隱藏耦合、跨模態混合理解(代碼 + 文檔 + 論文 = 同一張圖)

🔧 安裝與初始化演示

  • 安裝方法一:直接複製 GitHub repo 連結,叫 Claude Code 自動安裝並配置
  • 安裝方法二:手動複製終端命令執行(Windows CMD 同樣適用)
  • 測試項目:主播用自己嘅開源記憶插件 Memory LDB Pro 作為測試對象
  • 建圖命令:喺 Claude Code 輸入 graphify .,從根目錄掃描所有文件
  • 執行流程:文件檢測分類 → AST 提取 → 語意提取 → AST + 語意合併 → 社區檢測分析 → 社區標籤命名 → 可視化生成 → 基準測試清理
  • 輸出結果:瀏覽器自動打開項目嘅網絡圖譜,可查看各節點(如 index 文件)之間嘅關係;大型代碼庫需等待數分鐘

🔍 代碼查詢同解釋測試

  • query 命令:搜索 BM25 相關代碼 → 即時定位分佈喺兩個文件,附精確行號、作用說明,並識別出「12 階段評分管道」
  • explain 命令:詢問「智能提取」係點實現的 → 輸出完整流程圖、核心數學公式、關鍵設計決策(包括 6 種記憶類型、2 階段去重)
  • 精確數值查詢:詢問 Jina embedding 模型維度 → 精準返回 3072 維,附具體代碼

🔄 PR 整合與知識圖譜更新

  • 合併 PR:在 Claude Code 輸入指令,將 GitHub PR 自動 merge 入本地項目,測試全部通過
  • 更新命令graphify . update → 圖譜自動同步最新代碼變更
  • PR 分析:讓 AI 解釋 merge 邏輯 → 輸出對比表格,說明「27 行代碼修復了一個數據洩露和一個永久故障」

📄 跨模態整合:加入學術論文

  • 加入論文graphify add <arxiv link> → 將 AMAC(agent 記憶相關)論文加入圖譜
  • 自動映射:Graphify 自動將論文中提到的 5 個因子與本地項目代碼實現完全對應,附權重
  • 追蹤路徑graphify p 命令追蹤論文節點與代碼執行節點之間嘅圖譜路徑,給出具體分析

📤 導出至 Obsidian

  • 一鍵導出:用 Graphify 命令生成 Obsidian 知識庫
  • 效果展示:代碼知識圖譜成功轉換為互聯 Markdown 筆記,在 Obsidian 中可點擊瀏覽各文件關係
  • 結論:非常適合快速掌握陌生大型代碼庫、精準代碼分析、代碼與論文對比研究

💡 為咩呢個工具係新思路

最大突破係打破咗傳統「AI 讀文件」嘅線性思維:

  • 唔係叫 AI 讀完一堆文件再回答,而係先把整個代碼庫結構化成圖,AI 按圖導航
  • AST 解析唔消耗 LLM token → token 成本大幅降低
  • 代碼、文檔、論文可納入同一張圖 → 真正嘅跨模態理解

⚠️ 限制同注意事項

  • 大型代碼庫初次建圖較慢:語意提取階段需等待數分鐘,唔係即時
  • 初始設置有門檻:需要安裝配置,唔係開箱即用
  • 安全考量(影片未提,需自行評估):向 AI 工具開放專有代碼庫存在潛在安全風險,企業使用需注意

🚀 實際應用場景

場景Graphify 如何幫助
新人入職快速上手陌生大型代碼庫,唔使慢慢讀文件
PR 審查自動分析 PR 邏輯、影響範圍、修復效果
研究轉落地學術論文概念直接映射到對應代碼實現
代碼架構理解可視化節點關係,發現隱藏耦合
知識管理導出到 Obsidian,非開發者亦可瀏覽
節省 tokenAST 解析零 LLM 消耗,整體成本更低

分析基於 NotebookLM 提取,2026-04-09