← 返回首頁

Kaggle 宣佈在「Community Benchmarks」中引入 token 使用量、成本和延遲等新的衡量指標

Kaggle
Kaggle
@kaggle
152🔁 19
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

Kaggle 宣佈在「Community Benchmarks」中引入 token 使用量、成本和延遲等新的衡量指標。這項更新的核心觀點是:評估人工智慧模型不能僅看準確性,token 使用量、成本和速度對於實際應用部署同樣至關重要。

新增追蹤指標: 新功能允許使用者自動捕捉並分析每項任務評估的 token 消耗、成本和延遲。具體而言,使用者可以追蹤:

  • input_tokens 和 output_tokens 的確切數量
  • 以奈米美元(nanodollars)為單位的 input_tokens_cost 和 output_tokens_cost
  • total_backend_latency 來了解真實世界的效能表現

兩種存取層級: 在實現方面,Kaggle 提供了兩種層級的資料存取方式。首先,每條訊息都有 usage 屬性,會回傳包含詳細資料的 Usage 物件。使用者可以透過存取個別訊息來檢查特定回應的 input_tokens、output_tokens、輸入和輸出成本(以奈米美元計)以及後端延遲時間。其次,Chat 物件本身也提供 usage 屬性,可聚合對話中所有 AI assistant 訊息的使用量資料,讓使用者能一次性取得跨多個提示的累計 token 使用量、總成本和總延遲。

民主化研究評估: Kaggle 認為,透明且可重複的評估過程需要在 token 使用量、成本和速度方面保持透明。透過提供這些豐富的中介資料,平台希望幫助研究人員對基準測試進行更深入的分析,並發掘他人尚未發現的新穎見解,進一步民主化人工智慧研究。

更全面的評比標準: 這項更新表明 Kaggle 認識到模型評估的實際成本效益和效能考量,正在將「真實世界的應用需求」納入標準評估流程。對於開發人員和研究人員來說,這提供了更完整的模型選擇決策基礎——不再是單純的準確率競賽,而是考量成本與速度的全方位評比。這反映了模型在生產環境中的實際運營成本和回應速度往往與純粹的準確性一樣重要,是當前人工智慧應用部署的實際關切。