使用 full harness 框架解決了以往大型項目在持續更新過程中儲出現的諸多問題(full harness and a single-agent system for comparison)
問題:

  • Context Anxiety
  • QA Agent
  • Self-Evaluat

方法:

  • Context Compaction
  • Evaluator prompt
  • Full Harness

Context Anxiety

  • 隨著 context window 填滿,模型失去連貫性,甚至在接近上限前就提前草草結束工作。

自我評估過於寬鬆

  • Agent 被要求評估自己的產出時,幾乎都給出正面評價——即便品質對人類觀察者而言明顯低落。

設計千篇一律

  • 沒有引導時,Claude 傾向生成安全、可預測的版面。白底卡片加紫色漸層是典型的 AI 生成套路。

QA 測試流於表面

  • 早期 QA Agent 找到真正的問題,卻又說服自己「其實不嚴重」而放行,只測試主流路徑。

單一 Agent 能力受限

  • Solo Agent 執行複雜任務時產出品質嚴重不足——核心功能根本無法運作,實體無法回應輸入。

Harness 過於龐大昂貴

  • 第一版三 Agent 架構雖然有效,但整體執行耗費 6 小時、$200 美元,複雜度難以維持。

Solo Agent vs Full Harness

63929-hn8uuqfeo1k.png

Context Anxiety → Context Reset
問題 ──▶ 解法
完全清空 context window,啟動全新 Agent,透過結構化的 handoff artifact 傳遞上一個 Agent 的狀態與下一步。與 compaction(壓縮摘要)不同,reset 給 Agent 一張全新白板,從根本消除焦慮感。

升級 Opus 4.6 → 大幅簡化架構

Opus 4.6 在長任務連貫性、大型 codebase 操作與除錯能力上顯著提升。升級後不再需要 context reset,sprint 分解結構也可移除,Claude Agent SDK 的 automatic compaction 自動處理 context 成長。

自評寬鬆 → 分離 Generator 與 Evaluator

把執行任務的 Agent 與評判結果的 Agent 分開。調教一個獨立的 Evaluator 讓它保持挑剔,遠比讓 Generator 批判自己的產出可行——且一旦有了外部回饋,Generator 就有具體的目標可以迭代。

設計千篇一律 → 設計語言 + Few-shot 校準

在 prompt 中使用強烈的設計語言(「最好的設計是博物館級別的」),引導模型遠離 AI 慣用套路。同時用 few-shot 範例搭配詳細的評分分解校準 Evaluator,確保判斷與人類審美偏好一致。

Harness 過度複雜 → 逐步移除非必要元件

每次只移除一個 Harness 元件,觀察對最終結果的影響,而非一次砍掉太多造成無法追蹤的原因。核心原則:每個 Harness 元件都代表對「模型自身做不到某件事」的假設,這些假設值得用新模型重新驗證。

詳細内容仍舊推薦自己去看 blog 原文
https://www.anthropic.com/engineering/harness-design-long-running-apps

無標籤

新增評論