“랜딩페이지 만들어줘.”
AI에게 이 한 줄을 던지면, 어떤 모델이든 거의 같은 결과를 내놓습니다. 히어로 섹션, 3단 기능 카드, 그라디언트 CTA 버튼. 기술적으로는 완벽한데, 어딘가 본 것 같은 느낌. 이 현상에 이름이 붙었습니다 — AI 슬롭(AI Slop).
왜 이런 일이 생기는지, 그리고 Anthropic의 하네스 디자인 논문에서 출발해 어떻게 해결했는지 이야기합니다.
문제: AI 코딩 에이전트의 3가지 구조적 한계
Anthropic 엔지니어링 팀이 2026년 3월에 발표한 Harness Design for Long-Running Application Development는 AI 코딩 에이전트로 앱을 빌드하면서 발견한 실패 패턴 세 가지를 보고합니다.
1. 자기평가 편향 (Self-Evaluation Bias)
2. 컨텍스트 불안 (Context Anxiety)
컨텍스트 윈도우가 차오르면 모델이 조기에 작업을 마무리합니다. 검증을 건너뛰고, 기능을 반만 구현하고, “완료”를 선언합니다. 대화 요약(Compaction)으로는 해결되지 않습니다 — 모델이 “컨텍스트가 부족하다”는 인식 자체를 유지하기 때문입니다.
3. 제네릭 AI 슬롭
해결책: 3-에이전트 하네스
논문의 핵심 아이디어는 GAN(적대적 생성 신경망)에서 빌려온 것입니다. 만드는 역할과 평가하는 역할을 분리합니다.
스킬 개발: 논문에서 실전 도구로
“이걸 웹사이트/앱 디자인에 특화시키면, AI 슬롭 문제를 진짜 해결할 수 있지 않을까?”
논문의 한계 — UI/UX 방법론 부재
패치 1: 9축 루브릭 + Few-shot 캘리브레이션
패치 2: Generator에 “디자인 시스템 퍼스트” 규칙
패치 3: Evaluator 3계층 프로브
논문 경험에서 배운 것들
10회차의 창의적 도약
네덜란드 미술관 웹사이트를 반복 빌드하는 실험에서, 반복 1-9회차는 깨끗한 다크 테마 랜딩페이지를 만들었습니다. 그런데 10회차에서 모델이 접근 방식을 완전히 버리고, CSS 퍼스펙티브로 체커플로어 3D 공간을 렌더링하는 공간 경험으로 재설계했습니다.
이 경험에서 추가한 안전장치가 REDIRECT 프로토콜입니다 — Generator는 Evaluator의 명시적 REDIRECT 승인 없이는 디자인 방향을 바꿀 수 없습니다. 컨텍스트 리셋 시에는 design_memo.md로 현재 방향과 선택 이유를 전달해 기억상실 피벗을 방지합니다.
중간 반복이 더 나은 경우
“후기 반복이 전체적으로 나았지만, 중간 반복을 선호한 경우가 종종 있었다.” — 그래서 Generator는 매 작동 증분마다 git commit하고, Evaluator는 이전 반복의 장점이 사라졌을 때 이를 기록합니다.
프롬프팅이 캐릭터를 결정한다
“the best designs are museum quality”라는 문구를 평가 기준에 넣었더니, 모든 출력이 미술관 웹사이트처럼 생기기 시작했습니다. 루브릭은 품질(일관성, 의도적 선택)을 기술해야지, 참조(museum quality, Apple-like)를 기술하면 안 됩니다.
급진적 간소화는 실패한다
V1에서 V2로 진화할 때, 저자들은 처음에 여러 하네스 컴포넌트를 한꺼번에 제거했습니다. 결과는 품질 저하. Anthropic의 “Building Effective Agents”가 말하듯 — “가장 단순한 해결책을 찾되, 필요할 때만 복잡성을 추가하라.” 하나씩 제거해서 무엇이 핵심인지 파악하는 것이 올바른 방법입니다.
비용 대비 효과
| 구성 | 시간 | 비용 | 결과 |
|---|---|---|---|
| 단독 에이전트 | ~20분 | ~$9 | 핵심 기능 고장 |
| 전체 하네스 (V1) | ~6시간 | ~$200 | 완성도 높은 결과물 |
| 간소화 하네스 (V2) | ~3시간 50분 | ~$125 | 2시간+ 일관 세션 |
마무리: 하네스의 모든 부품은 가정을 인코딩한다
“모든 하네스 컴포넌트는 모델이 혼자서는 할 수 없는 것에 대한 가정을 인코딩한다. 그 가정들은 스트레스 테스트할 가치가 있다.”
모델이 발전하면 일부 컴포넌트는 더 이상 필요하지 않습니다. V1에서 V2로 오면서 스프린트 분해가 사라진 것처럼. 하지만 하네스는 단순히 줄어드는 것이 아니라 이동합니다 — 불필요해진 복잡성을 더 어려운 과제로 재배치하는 것입니다.
이 스킬은 현재 시점에서 AI가 혼자 잘 못하는 것들 — 디자인 정체성, 반응형 검증, 접근성, UX 휴리스틱 — 을 하네스로 보완합니다.
GitHub: greeun/harness-design (v1.1.0, MIT License)
설치: harness-design/ 폴더를 ~/.claude/skills/에 복사하면 됩니다.