「Skillgrade」是一個用於評估 AI Agent 技能的開源工具

Minko Gechev

♥354🔁 48

𝕏 (Twitter)🔥2026年3月17日

AI 中文摘要Claude 生成

「Skillgrade」是一個用於評估 AI Agent 技能的開源工具，旨在簡化 Agent 能否正確發現和使用特定技能的測試流程。該工具提供了極簡的命令列介面，只需兩個指令就能初始化和執行評估測試。

核心設計 強調易用性。使用者只需執行 skillgrade init 來建立評估，再執行 skillgrade 來執行測試。預設情況下，評估會在安全的沙箱 Docker 容器中執行，保護使用者的本地機器環境。該工具支援多個主流 AI 模型，包括：

Gemini
Claude
OpenAI 的 Codex

工具會根據設定的 API 金鑰自動偵測使用的 Agent。使用此工具需要 Node.js 20+ 和 Docker。

評估框架 採用

Announcing skillgrade - the easiest way to evaluate your agent skills

All you need is two commands:

skillgrade init # create evals
skillgrade # run them

By default evals run in a safe sandboxed docker containerhttps://t.co/NPVCKSFzNa pic.twitter.com/5PK2DAhTSs
— Minko Gechev (@mgechev) March 16, 2026