「Skillgrade」是一個用於評估 AI Agent 技能的開源工具
AI 中文摘要Claude 生成
「Skillgrade」是一個用於評估 AI Agent 技能的開源工具,旨在簡化 Agent 能否正確發現和使用特定技能的測試流程。該工具提供了極簡的命令列介面,只需兩個指令就能初始化和執行評估測試。
核心設計 強調易用性。使用者只需執行 skillgrade init 來建立評估,再執行 skillgrade 來執行測試。預設情況下,評估會在安全的沙箱 Docker 容器中執行,保護使用者的本地機器環境。該工具支援多個主流 AI 模型,包括:
- Gemini
- Claude
- OpenAI 的 Codex
工具會根據設定的 API 金鑰自動偵測使用的 Agent。使用此工具需要 Node.js 20+ 和 Docker。
評估框架 採用
Announcing skillgrade - the easiest way to evaluate your agent skills
— Minko Gechev (@mgechev) March 16, 2026
All you need is two commands:
skillgrade init # create evals
skillgrade # run them
By default evals run in a safe sandboxed docker containerhttps://t.co/NPVCKSFzNa pic.twitter.com/5PK2DAhTSs
