Anthropic 透過多 Agent 架構提升 Claude 的前端設計與長期自主開發能力
AI 語音朗讀 · Edge TTS
Anthropic 透過多 Agent 架構提升 Claude 的前端設計與長期自主開發能力。
Anthropic 工程團隊透過引入「生成者-評估者」(Generator-Evaluator) 的多 Agent 架構,成功突破了 Claude 在前端設計與長期自主軟體開發上的效能瓶頸。此方法透過明確的評估標準與任務拆解,顯著提升了 AI 產出應用程式的品質與複雜度,解決了單一模型在執行長期任務時常見的「上下文焦慮」與自我評估偏差問題。
核心挑戰:模型效能的瓶頸與失敗模式
在過去的實驗中,Anthropic 發現單純依賴提示工程(Prompt Engineering)或簡單的任務拆解,在處理複雜任務時往往會觸及效能天花板。研究人員觀察到兩個主要的失敗模式:
- 上下文焦慮(Context Anxiety):當任務過長、視窗即將填滿時,模型會傾向於過早結束工作。雖然「壓縮」(Compaction)技術可以縮短歷史紀錄,但無法提供模型一個「乾淨的開始」。
- 自我評估偏差:模型在評估自身產出時,傾向於給予過度正面的評價,即使產出品質平庸。這在主觀性強的設計任務中尤為明顯,因為缺乏像軟體測試那樣的二元判斷標準。
為了克服這些問題,團隊引入了「上下文重置」(Context Resets)機制,透過結構化的交接(Handoff)將狀態傳遞給下一個 Agent,確保模型始終擁有乾淨的視窗,儘管這增加了編排複雜度與 token 消耗。
前端設計:將主觀品質轉化為可評估標準
針對前端設計,團隊設計了一套基於「生成者-評估者」的迴圈機制。為了讓 AI 能評估設計的好壞,團隊將主觀的審美判斷轉化為具體的評分標準,並要求 Agent 嚴格遵循:
- 設計品質(Design Quality):評估設計是否具備整體感,而非零散元件的堆砌。
- 原創性(Originality):檢查是否有客製化決策,而非僅使用模板或 AI 生成的常見模式(如紫色漸層卡片)。
- 工藝(Craft):技術執行面的檢查,包括字體層級、間距一致性、色彩和諧度及對比度。
- 功能性(Functionality):評估介面的可用性,確保使用者能理解操作並完成任務。
透過 Claude Agent SDK,生成者 Agent 負責產出 HTML/CSS/JS,而評估者 Agent 則使用 Playwright MCP 直接與即時頁面互動,進行截圖與分析。這種「生成-評估-回饋」的迭代過程(每輪 5 到 15 次),迫使生成者在面對批評時進行調整,甚至在必要時徹底改變設計方向,從而產生了比單次生成更具創意與深度的作品。
長期自主開發:三 Agent 架構的應用
將此架構應用於全端開發時,團隊設計了一套包含「規劃者」、「生成者」與「評估者」的三 Agent 系統,以應對軟體開發生命週期中的複雜需求:
- 規劃者(Planner):負責將使用者的簡短需求擴展為完整產品規格,並專注於高層次的技術設計,避免過早陷入細節導致錯誤累積。
- 生成者(Generator):以「衝刺」(Sprint)為單位執行任務,每次僅實作一個功能,並在結束時進行自我評估。
- 評估者(Evaluator):扮演 QA 的角色,使用 Playwright 點擊執行中的應用程式,針對功能、API 介面與資料庫狀態進行測試,並根據預先協商的「衝刺合約」(Sprint Contract)進行評分。
這種架構的關鍵在於「衝刺合約」:在程式撰寫前,生成者與評估者必須針對該階段的「完成定義」達成共識。這不僅彌補了高層次規格與可測試實作之間的鴻溝,也確保了開發過程始終符合預期。
實際影響與成效分析
在測試中,團隊使用 Claude Opus 4.5 進行實驗,比較了「單一 Agent」與「多 Agent Harness」的產出。結果顯示,儘管這種架構增加了編排複雜度、token 消耗與延遲,但產出品質有顯著差異:
- 完整性與可用性:單一 Agent 產出的應用程式在複雜操作下往往會崩潰或邏輯斷裂,而多 Agent 產出的應用程式不僅功能完整,且具備更佳的視覺一致性與使用者體驗。
- 產品直覺:透過規劃者將 AI 功能整合進規格中,產出的應用程式具備更高的實用價值。
- 迭代能力:評估者能精確指出程式碼中的 Bug 或設計缺陷,促使生成者進行針對性的修正,而非盲目地重寫。
這項研究證明,透過結構化的 Harness 設計與 Agent 間的職責分離,可以有效克服大語言模型在長期任務中的「上下文焦慮」與判斷力不足,為實現真正的自主軟體工程奠定了基礎。
New on the Anthropic Engineering Blog:
— Anthropic (@AnthropicAI) March 24, 2026
How we use a multi-agent harness to push Claude further in frontend design and long-running autonomous software engineering.
Read more: https://t.co/HWvmXk1ykn
