AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 2 篇
Kaggle 正式推出「Standardized Agent Exams (SAE)」實驗性 MVP,旨在為開發者提供一套輕量、無需繁瑣設定的標準化評測機制,以即時評估 AI Agent 的實戰能力並公開排名。此舉意在解決當前評測基準多針對...
Kaggle 宣佈在「Community Benchmarks」中引入 token 使用量、成本和延遲等新的衡量指標。這項更新的核心觀點是:評估人工智慧模型不能僅看準確性,token 使用量、成本和速度對於實際應用部署同樣至關重要。 新增追...