Claude Code가 6개월만에 1조 찍은 비결은 모델이 아니라 이거였음
같은 Claude 모델 쓰는데 Claude Code랑 그냥 클로드는 왜 이렇게 다르게 느껴질까. 1조 매출 비결은 새 모델이 아니라 모델 주변에 엮어둔 "하네스(harness)"였다는 분석을 AI 아트 자동화 워크플로우 만든 경험과 함께 풀어본다. 비개발자 AI 창작자도 알면 도움 되는 내용.
AI 아트 프롬프트 200개를 일괄 변환할 일이 있었어요. 영문 프롬프트 → 한국어 SEO 설명 + Alt 텍스트 + 해시태그까지 한 번에 뽑는 작업. 처음엔 그냥 클로드 웹 인터페이스에 던져봤는데 50개 넘어가니까 컨텍스트 꼬이고 형식 깨지고 난리. 같은 모델인데 Claude Code로 똑같은 작업 시키니까 끝까지 깔끔하게 처리되는 거예요.
같은 Opus, 다른 결과. 왜? 이게 한참 궁금했는데 최근에 Claude Code 내부 구조 분해해 놓은 글을 하나 읽고 좀 정리됐습니다. Claude Code가 잘하는 건 모델 때문이 아니라 모델 주변에 엮어둔 구조 때문이었어요.
하네스가 뭔데
원문에서는 이걸 "harness engineering"이라고 부릅니다. 모델 자체가 아니라 모델 주변에 까는 환경 설계를 의미해요. 안전 벨트나 마구처럼 모델을 묶고, 통제하고, 외부와 연결해주는 구조. 좋은 하네스는 모델이 결정하고 하네스가 실행하는 식으로 역할이 깔끔하게 나뉨.
원칙은 이 정도로 정리되더라고요.
- 결정은 모델만 함. 하네스는 모델이 시킨 거 실행만 함
- 모델이 세상과 만나는 통로는 무조건 도구(tool) 호출 한 가지
- 컨텍스트는 알아서 쌓이는 게 아니라 의도적으로 관리되는 자원
- 권한은 코드에 흩뿌리지 말고 설정 파일 한 곳에서 선언
근데 이게 추상적으로 들리는데, Claude Code에 어떻게 박혀있냐면.
5개 핵심 부품
1. 마스터 루프
모델한테 "다음 뭐 할래?" 묻고, 응답 받고, 시킨 거 실행하고, 결과를 다시 모델한테 던지는 while 루프. 단순한 한 줄 버그 수정이든 코드베이스 전체 리팩터링이든 이 루프 하나로 다 돌아감. 코드는 안 바뀌고 모델이 그 안에서 뭘 하는지만 바뀌는 구조.
2. 도구 디스패치 맵
bash, read, write, grep, glob 같은 도구 18개가 등록돼 있음. 각 도구는 이름 + 설명 + 입력 스키마로 정의되고, 모델이 이름으로 부르면 해당 함수가 실행됨. 새 도구 추가는 그냥 딕셔너리에 한 줄 추가. MCP 서버도 똑같은 방식으로 들어옴.
3. 컨텍스트 관리 레이어
이게 진짜 핵심임. 컨텍스트 윈도우가 92% 차면 자동으로 wU2라는 압축기가 옛날 대화를 요약해서 디스크에 저장하고 새 컨텍스트로 작업 재개. 그래서 몇 시간짜리 세션 굴려도 모델이 멍해지질 않아요. 일반 챗봇이 50턴 넘어가면 흐려지는 이유가 이 압축 메커니즘이 없어서.
4. 권한 거버넌스
YAML 파일 하나에 "rm -rf 같은 건 무조건 차단", "ls는 무조건 허용", "rm 단일 파일은 사용자한테 물어봐" 이런 규칙이 깔려있음. 모든 도구 호출은 이 규칙 통과 후에 실행. 안전이 모델 행동이 아니라 구조 자체에 박혀있는 거.
5. 서브에이전트 격리
이게 AI 아트 자동화에 진짜 중요한 부분. 큰 작업이 있으면 Claude Code가 스스로 자식 에이전트 3개를 병렬로 띄워서 각자 다른 부분을 탐색하게 함. 자식들의 중간 작업물(파일 읽기, 검색 결과 등)은 부모 컨텍스트에 안 들어옴. 부모는 깔끔한 요약만 받아서 처리.
그래서 뭐가 다르냐면
제가 위에서 프롬프트 200개 변환하다 망한 이유가 이거였어요. 일반 클로드 채팅은 마스터 루프도 없고, 컨텍스트 자동 압축도 없고, 서브에이전트 격리도 없음. 그냥 모델한테 다 떠넘기는 구조라 50개쯤 가면 컨텍스트가 누더기가 됨.
Claude Code는 같은 작업을 받으면 일단 todo 리스트 만들고, 200개를 묶음으로 나눠서 각각 서브에이전트에게 던지고, 결과만 모아서 정리. 그 과정에서 토큰을 92%까지 안 채우게 알아서 압축. 모델 지능 자체는 동일한데 일을 시키는 구조가 다른 거예요.
이거 알고 나니까 왜 6개월 만에 매출 1조 찍었는지 이해됨. 다른 AI 코딩 도구들이 모델 성능 경쟁할 때 Anthropic은 모델 주변 구조를 갈아엎고 있었던 거.
잠깐 딴 얘기
이 글 정리하면서 차 마시러 갔다가 그 사이에 클로드 코드가 시켰던 100개 파일 리네이밍을 끝내놨더라고요. 백그라운드로 돌리는 게 익숙해지면 진짜 못 돌아감.
AI 아트 창작자한테 의미 있는 부분
비개발자도 이해하면 좋은 게 두 가지 있어요.
스킬 시스템: Claude Code는 시스템 프롬프트에 모든 지식을 박는 게 아니라, "PDF 처리법", "코드 리뷰 방법" 같은 전문 지식을 별도 SKILL.md 파일로 두고 필요할 때만 로드해요. AI 아트 워크플로우도 비슷하게 짜면 됩니다. 프롬프트 라이브러리 통째로 넣지 말고 작업별로 분리해서 필요할 때만 부르기.
TodoWrite 강제: Claude Code는 멀티스텝 작업 시작 전에 무조건 todo 리스트부터 쓰게 만들어요. 모델이 똑똑해서가 아니라 구조가 그렇게 되어있어서. AI 아트 배치 작업 시킬 때도 "먼저 계획 세우고 시작해" 한 줄 박으면 결과 안정성이 진짜 달라짐.
솔직한 단점
- 토큰 비용이 무서움: 컨텍스트 압축, 서브에이전트, 캐싱 다 쓰지만 그래도 복잡한 작업은 토큰을 폭식. AI 아트 배치 200개 정리에 5달러 가까이 나간 적 있어요. Pro 플랜 안에서 처리하려면 작업 사이즈를 의도적으로 잘게 쪼개야 함
- 비개발자한테는 진입장벽이 있음: 터미널, Node.js, MCP 설정 같은 거 만져야 해서 코드 알레르기 있으면 좀 힘들어요. Claude Cowork가 이 부분을 메우려고 나온 거 같긴 한데 아직 제가 안 써봐서 모르겠고
- 로컬 작업 외에는 한계: 결국 본인 컴퓨터의 파일 시스템 위에서 도는 도구라 클라우드 협업 워크플로우엔 안 맞음. AI 아트 협업하려면 다른 도구 따로 필요
정리하면
같은 모델이라도 어떤 하네스에 얹느냐에 따라 결과가 완전히 달라진다는 거. Claude Code는 사실상 "Claude를 잘 활용하는 법을 코드로 굳혀놓은 시스템"이고, 이게 모델 자체보다 더 큰 격차를 만든다는 게 매출이 증명한 거임.
개인적으로는 AI 아트 자동화 진심으로 굴릴 거면 Claude Code 한 달은 무조건 깔아보길 권함. 비싸도 그만한 가치 있어요. ChatGPT나 일반 클로드로 같은 거 하려고 하면 결국 본인이 하네스를 머릿속에서 직접 굴려야 하는데, 그게 진짜 피곤하거든요.
그리고 이거 하네스 엔지니어링 개념 자체가, 앞으로 AI 도구 고를 때 "어떤 모델 쓰는지"보다 "그 모델을 어떻게 감싸놨는지"를 봐야 한다는 시그널인 듯. 다음에 새 AI 도구 나오면 그 기준으로 한 번 봐보세요.
댓글
NEXT_PUBLIC_GISCUS_*환경변수 구성 필요)