使用 full harness 框架解決了以往大型項目在持續更新過程中儲出現的諸多問題

使用 full harness 框架解決了以往大型項目在持續更新過程中儲出現的諸多問題（full harness and a single-agent system for comparison）
問題：

Context Anxiety
QA Agent
Self-Evaluat

方法：

Context Compaction
Evaluator prompt
Full Harness

Context Anxiety

隨著 context window 填滿，模型失去連貫性，甚至在接近上限前就提前草草結束工作。

自我評估過於寬鬆

Agent 被要求評估自己的產出時，幾乎都給出正面評價——即便品質對人類觀察者而言明顯低落。

設計千篇一律

沒有引導時，Claude 傾向生成安全、可預測的版面。白底卡片加紫色漸層是典型的 AI 生成套路。

QA 測試流於表面

早期 QA Agent 找到真正的問題，卻又說服自己「其實不嚴重」而放行，只測試主流路徑。

單一 Agent 能力受限

Solo Agent 執行複雜任務時產出品質嚴重不足——核心功能根本無法運作，實體無法回應輸入。

Harness 過於龐大昂貴

第一版三 Agent 架構雖然有效，但整體執行耗費 6 小時、$200 美元，複雜度難以維持。

Solo Agent vs Full Harness

Context Anxiety → Context Reset
問題 ──▶ 解法
完全清空 context window，啟動全新 Agent，透過結構化的 handoff artifact 傳遞上一個 Agent 的狀態與下一步。與 compaction（壓縮摘要）不同，reset 給 Agent 一張全新白板，從根本消除焦慮感。

升級 Opus 4.6 → 大幅簡化架構

Opus 4.6 在長任務連貫性、大型 codebase 操作與除錯能力上顯著提升。升級後不再需要 context reset，sprint 分解結構也可移除，Claude Agent SDK 的 automatic compaction 自動處理 context 成長。

自評寬鬆 → 分離 Generator 與 Evaluator

把執行任務的 Agent 與評判結果的 Agent 分開。調教一個獨立的 Evaluator 讓它保持挑剔，遠比讓 Generator 批判自己的產出可行——且一旦有了外部回饋，Generator 就有具體的目標可以迭代。

設計千篇一律 → 設計語言 + Few-shot 校準

在 prompt 中使用強烈的設計語言（「最好的設計是博物館級別的」），引導模型遠離 AI 慣用套路。同時用 few-shot 範例搭配詳細的評分分解校準 Evaluator，確保判斷與人類審美偏好一致。

Harness 過度複雜 → 逐步移除非必要元件

每次只移除一個 Harness 元件，觀察對最終結果的影響，而非一次砍掉太多造成無法追蹤的原因。核心原則：每個 Harness 元件都代表對「模型自身做不到某件事」的假設，這些假設值得用新模型重新驗證。

詳細内容仍舊推薦自己去看 blog 原文
https://www.anthropic.com/engineering/harness-design-long-running-apps