使用 full harness 框架解決了以往大型項目在持續更新過程中儲出現的諸多問題
使用 full harness 框架解決了以往大型項目在持續更新過程中儲出現的諸多問題(full harness and a single-agent system for comparison)
問題:
- Context Anxiety
- QA Agent
- Self-Evaluat
方法:
- Context Compaction
- Evaluator prompt
- Full Harness
Context Anxiety
- 隨著 context window 填滿,模型失去連貫性,甚至在接近上限前就提前草草結束工作。
自我評估過於寬鬆
- Agent 被要求評估自己的產出時,幾乎都給出正面評價——即便品質對人類觀察者而言明顯低落。
設計千篇一律
- 沒有引導時,Claude 傾向生成安全、可預測的版面。白底卡片加紫色漸層是典型的 AI 生成套路。
QA 測試流於表面
- 早期 QA Agent 找到真正的問題,卻又說服自己「其實不嚴重」而放行,只測試主流路徑。
單一 Agent 能力受限
- Solo Agent 執行複雜任務時產出品質嚴重不足——核心功能根本無法運作,實體無法回應輸入。
Harness 過於龐大昂貴
- 第一版三 Agent 架構雖然有效,但整體執行耗費 6 小時、$200 美元,複雜度難以維持。
Solo Agent vs Full Harness

Context Anxiety → Context Reset
問題 ──▶ 解法
完全清空 context window,啟動全新 Agent,透過結構化的 handoff artifact 傳遞上一個 Agent 的狀態與下一步。與 compaction(壓縮摘要)不同,reset 給 Agent 一張全新白板,從根本消除焦慮感。
升級 Opus 4.6 → 大幅簡化架構
Opus 4.6 在長任務連貫性、大型 codebase 操作與除錯能力上顯著提升。升級後不再需要 context reset,sprint 分解結構也可移除,Claude Agent SDK 的 automatic compaction 自動處理 context 成長。
自評寬鬆 → 分離 Generator 與 Evaluator
把執行任務的 Agent 與評判結果的 Agent 分開。調教一個獨立的 Evaluator 讓它保持挑剔,遠比讓 Generator 批判自己的產出可行——且一旦有了外部回饋,Generator 就有具體的目標可以迭代。
設計千篇一律 → 設計語言 + Few-shot 校準
在 prompt 中使用強烈的設計語言(「最好的設計是博物館級別的」),引導模型遠離 AI 慣用套路。同時用 few-shot 範例搭配詳細的評分分解校準 Evaluator,確保判斷與人類審美偏好一致。
Harness 過度複雜 → 逐步移除非必要元件
每次只移除一個 Harness 元件,觀察對最終結果的影響,而非一次砍掉太多造成無法追蹤的原因。核心原則:每個 Harness 元件都代表對「模型自身做不到某件事」的假設,這些假設值得用新模型重新驗證。
詳細内容仍舊推薦自己去看 blog 原文
https://www.anthropic.com/engineering/harness-design-long-running-apps