하네스 엔지니어링: 개발자는 코드를 짜는 사람에서 코드가 나오는 구조를 만드는 사람으로
한국 최초 랄프톤에서 체감한 것 - AI 에이전트 시대, 개발자의 진짜 일은 코딩이 아니라 환경 설계다
Justin Shin과 함께 팀어텐션(정구봉)에서 주최한 한국 최초 랄프톤에 다녀왔다. 배움이 많았는데, 가장 큰 건 이거다:
개발자의 역할이 실무자에서 설계자로 바뀌고 있다. 그 핵심에 하네스 엔지니어링이 있다.
하네스 엔지니어링이 뭔가
한 줄로: AI 에이전트가 알아서 성과를 내도록 환경·제약·피드백 루프를 설계하는 일.
말(AI)이 잘 달리게 하려면 말을 훈련시키는 게 아니라 마구(harness)를 잘 만들어야 한다. 코드를 직접 짜는 게 아니라, 코드가 잘 나오는 시스템을 짜는 것.
OpenClaw 창시자 Peter Steinberger가 “I ship code I don’t read”라고 했다. 이게 가능했던 건 검증을 안 해서가 아니라, 검증 자동화가 촘촘했기 때문이다.
4가지 구성요소
1. 아키텍처 가드레일
에이전트가 실수할 수 있는 범위를 구조적으로 제한한다.
- 엄격한 계층 구조, 명확한 의존성 규칙
- 자동화된 린터, ArchUnit 같은 구조적 테스트
- pre-commit 훅으로 위반 사전 차단
에이전트에게 “이렇게 짜”가 아니라 “이 안에서만 짜”를 강제하는 것.
2. 컨텍스트 엔지니어링
에이전트가 맥락을 이해할 수 있도록 지식을 구조화한다.
AGENTS.md,CLAUDE.md같은 에이전트용 지침 문서- 코드베이스 내 지식 기반을 지속적으로 강화
- 에이전트가 실패할 때마다 문서 업데이트 — 살아있는 피드백 루프
핵심은 “사람이 읽기 좋은 문서”가 아니라 **“에이전트가 이해하고 고치기 좋은 구조”**를 만드는 것.
3. 도구 접근성
에이전트에게 인간 개발자와 동일한 자원을 제공한다.
- MCP 서버로 내부 도구 통합
- 커스텀 린터, 브라우저 자동화
- 에이전트가 환경을 셋업하고, 테스트하고, 디버깅할 수 있는 인프라
에이전트가 “코드만 뱉는 기계”에서 “풀사이클 엔지니어”로 동작하려면 도구가 있어야 한다.
4. 검증 자동화
에이전트가 자기 작업을 스스로 검증할 수 있는 시그널을 제공한다.
- 테스트, 린트, E2E 검증
- 주기적으로 도는 에이전트가 문서 불일치·아키텍처 위반 탐지
- Martin Fowler의 표현으로 “가비지 컬렉션” — 엔트로피에 대항하는 자동 청소
이게 없으면 에이전트는 one-shot 코드 생성기에 불과하다. 이게 있으면 반복·디버깅·개선이 가능한 엔지니어가 된다.
개발자 역할의 변화
| 기존 | 하네스 엔지니어링 시대 |
|---|---|
| 직접 코드 작성 | 환경·제약·피드백 루프 설계 |
| 코드 품질을 손으로 관리 | 검증을 기계적 규칙으로 자동화 |
| 한 번에 하나의 작업 | 병렬 에이전트 작업 조율 |
| ”좋은 코드를 짠다" | "좋은 코드가 나오는 구조를 만든다” |
Martin Fowler는 이렇게 정리했다:
“에이전트가 어려움을 겪으면 그걸 신호로 보고, 부족한 것(도구·문서·안전장치)을 파악해서 리포지토리에 피드백한다.”
에이전트의 실패를 시스템 개선의 입력으로 쓰는 루프. 이게 하네스 엔지니어링의 핵심 사이클이다.
수렴하는 현장
OpenAI(Codex), Anthropic(Claude Code), Stripe, OpenClaw — 규모도 맥락도 다른 조직들이 같은 패턴으로 수렴하고 있다:
- 에이전트한테 코드를 맡긴다
- 실패한다
- 실패 원인을 분석해서 환경을 개선한다
- 다시 맡긴다
- 반복
이 루프를 돌리는 속도와 깊이가 곧 팀의 AI 활용 역량이다.
내 체감
랄프톤에서 직접 느낀 건, 이게 이론이 아니라 이미 실무라는 것이다.
CLAUDE.md에 코딩 가이드라인 쓰고, 서브에이전트 전략 세우고, 워크플로 컨벤션 잡는 것 — 이미 하네스 엔지니어링의 일부다. 다만 아직 검증 자동화가 충분하지 않다. 사람이 직접 에이전트 출력을 검증하는 단계에 머물러 있다.
완성형은 린터·테스트·구조적 검증이 자동으로 돌면서, 사람이 잠든 사이에도 에이전트가 스스로 반복·개선하는 루프다.
그 방향으로 가야 한다.
참고 자료:
- Martin Fowler - Harness Engineering
- Anthropic - Effective Harnesses for Long-Running Agents
- The Emerging Harness Engineering Playbook
- OpenAI - Harness Engineering