Claude Code 비용 절감: /usage 분석으로 월 사용료 절반 줄이기
Claude Code 비용 절감 한 줄 요약
먼저
/usage를 열고 캐시 미스, 긴 세션, 병렬 세션, 서브에이전트 비중부터 보세요. 2026-04-30 기준 공식 흐름은/usage확인 → Sonnet 기본값 점검 →/clear와/compact로 세션 정리 → CLAUDE.md를 200줄 안팎으로 줄이기예요./cost나/stats도 여전히 동작하는데 둘 다/usage안의 특정 탭을 바로 여는 단축어고, 정식 화면은/usage로 보면 돼요.
한도 막대가 19분 만에 꽉 찼다는 얘기, 남 일 같지 않았어요. 3월 말에 비슷한 세션을 돌렸는데 어제까지 멀쩡하던 작업이 갑자기 비싸지더라고요. 그때부터 Claude Code 비용 절감은 감으로 하면 안 된다고 봤어요. 2026-04-23에 나온 Anthropic 포스트모텀을 보면 3월에서 4월 사이에는 기본 추론 강도 변경, 오래 쉰 세션의 캐시 처리 버그, 답변 길이 제한 프롬프트가 겹쳤거든요. 그래서 “내 프롬프트가 문제였나?”만 보면 진단이 반쪽짜리가 돼요. 그렇다고 버그만 탓하고 끝내도 안 돼요. 긴 세션을 계속 끌고 가는 습관, Opus 기본값, 길어진 CLAUDE.md도 지금 비용을 키우죠. 이 글은 그 진단 순서를 한 번에 묶어둔 거예요. 10분이면 원인을 찾고, 30분이면 다음 5시간 사용 한도 창의 체감이 꽤 달라질 거예요.
한도 막대가 갑자기 빨리 찬 이유
지금 겪는 급격한 소진이 전부 내 사용 습관 탓은 아니에요. 2026년 3월부터 4월 사이에는 제품 쪽 변경과 버그가 실제로 겹쳤고, 그 뒤에도 긴 세션과 무거운 모델 기본값은 계속 비용을 밀어 올려요.
지난 한 달 사이에 정확히 무엇이 바뀌었는지 짚어볼게요.
| 날짜 | 무슨 일이 있었나 | 체감 영향 | 지금 할 일 |
|---|---|---|---|
| 2026-03-04 | 기본 reasoning effort가 high에서 medium으로 내려감 |
품질·속도·토큰 사용 균형이 바뀜 | 현재 모델과 effort부터 체크 |
| 2026-03-26 ~ 2026-04-10 | 오래 쉰 세션에서 이전 thinking을 계속 지우는 버그 | 캐시 미스와 한도 소진이 빨라질 수 있었음 | 오래 묵힌 세션 습관 점검 |
| 2026-04-16 ~ 2026-04-20 | 답변 길이 제한 프롬프트 추가 | 코딩 품질 저하 보고가 많았음 | 버전과 기간 구분해서 보기 |
| 2026-04-23 | Anthropic이 포스트모텀 공개, 구독자 usage limit reset 공지 | 과거 급증 원인을 제품 측도 인정 | 현재 패턴과 과거 이슈를 분리 |
이 구간은 Anthropic 포스트모텀에서 날짜까지 공개됐어요. 그래서 3월 말 청구서가 튄 사람이라면, 지금 세팅을 손보기 전에 “그때는 제품 이슈가 있었고 지금은 무엇이 남았는지”부터 나눠 봐야 하죠.
모델과 추론 강도 쪽 맥락이 헷갈리면 Claude Code thinking 모드: low/medium/high/xhigh 언제 쓰는지를 같이 보는 편이 빨라요. effort를 모르고 비용만 줄이면 품질까지 같이 깎일 수 있거든요.
Claude Code 비용 절감은 /usage부터 보세요
얼마를 냈는지보다 먼저 봐야 하는 건 무엇이 한도를 먹고 있는지예요. 최신 공식 문서는 /cost가 아니라 /usage를 기준으로 설명하고, 최근 버전은 병렬 세션, 서브에이전트, 캐시 미스, 긴 컨텍스트 비중까지 더 잘게 보여줘요.
설마 usage 막대만 보고 원인을 추정하고 있진 않죠?
아래 순서대로 한 번만 해보세요.
# 현재 세션 사용량 보기
/usage
# 완전히 다른 작업으로 넘어갈 때
/clear
# 같은 작업인데 대화만 길어졌을 때
/compact Focus on code samples and failing tests
예시 출력은 이런 식이에요.
Total cost: $0.55
Total duration (API): 6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes: 0 lines added, 0 lines removed
체크할 포인트는 네 가지면 충분해요.
- API 키 사용자라면 달러 추정치보다 캐시 미스와 긴 컨텍스트 비율을 먼저 봐요.
- Pro나 Max 구독자라면 세션 달러 값보다 usage bar와 활동 통계를 더 봐야 해요.
- 하루 사용량이 갑자기 뛴 날은 병렬 세션이나 오래 방치한 세션이 있었는지 같이 떠올려보세요.
- 최근 버전의
/usagebreakdown에서 subagents 비중이 높게 뜨면, 메인 대화보다 바깥에서 더 많이 새는 중일 수 있어요.
이 흐름은 공식 비용 문서와 2026년 4월 둘째 주 릴리스 노트에 같이 나와 있어요. 특히 /usage breakdown이 보이면 “내가 많이 썼다”가 아니라 “어디서 새고 있다”까지 바로 읽히더라고요.
서브에이전트 비중이 높게 잡히면 메인 창 밖에서 더 새는 중일 수 있는데, 그럴 땐 파일 범위 자체를 줄이는 쪽이 빠른 길이에요. 정리 패턴은 Claude Code Skills 만들기: 반복 작업을 슬래시 커맨드 하나로 쪽에 자세히 나와 있어요.
가장 먼저 깎이는 3가지: 파일 범위, 모델, CLAUDE.md
Claude Code 비용 절감을 처음 시작한다면 이 30분이 가장 큽니다. 읽지 않을 파일을 빼고, 기본 모델을 Sonnet으로 낮추고, CLAUDE.md를 짧게 만들면 다음 세션부터 바로 차이가 나요.
굳이 Opus를 기본값으로 두고 모든 세션을 시작해야 할까요?
| 항목 | 바로 할 일 | 왜 줄어드나 | 주의할 점 |
|---|---|---|---|
| 파일 범위 | 읽지 않을 경로를 미리 제외 | 초기 컨텍스트가 줄어듦 | 너무 많이 빼면 필요한 파일을 놓칠 수 있음 |
| 기본 모델 | sonnet으로 시작 |
일상 코딩 기준 비용이 낮음 | 복잡한 설계는 잠깐 Opus로 올릴 수 있음 |
CLAUDE.md |
200줄 안팎으로 정리 | 세션 시작 때마다 읽는 토큰 감소 | 자주 안 쓰는 규칙은 Skills로 분리 |
파일 범위부터 줄여볼게요. 커뮤니티에서는 .claudeignore 같은 방식으로 자주 안 보는 경로를 빼는 팀이 많았어요. 저는 이걸 “Claude가 매번 다시 읽을 필요 없는 것 정리” 정도로 이해하면 편하더라고요.
# 예시: 자주 다시 읽지 않을 경로 목록
node_modules/
dist/
.next/
coverage/
*.lock
public/build/
모델은 더 단순해요. 2026-04-30 기준 공식 API 가격은 Sonnet 4.6이 입력 $3 / MTok, 출력 $15 / MTok이고, Opus 4.7은 입력 $5 / MTok, 출력 $25 / MTok이에요. 가벼운 수정, 테스트 보강, 문구 정리는 Sonnet으로 시작하는 편이 낫죠. 프로젝트 기본값은 이렇게 잡을 수 있어요.
{
"model": "sonnet"
}
복잡한 설계나 아키텍처 판단만 잠깐 올리고 싶다면 /model opus, 또는 계획 단계만 Opus·실행은 Sonnet으로 내려오는 opusplan 별칭(claude --model opusplan)을 쓰는 게 깔끔해요. 한 번 잡아두면 생각보다 편해요.
CLAUDE.md는 더 짧게. 공식 문서는 세션 시작 시 읽는 파일이라서 약 200줄 이하를 권하고, 길어진 지침은 Skills로 빼라고 적어둬요. 반복 작업을 따로 분리하는 구조는 Claude Code Skills 만들기: 반복 작업을 슬래시 커맨드 하나로 쪽이 훨씬 자세해요.
긴 세션을 짧게 끊고 thinking 예산을 낮추세요
토큰은 한 번 많이 읽는 것보다 길어진 세션을 계속 다시 읽을 때 더 아프게 나가요. 같은 작업을 오래 끌수록 /compact, /clear, /effort 차이가 커집니다.
계속 같은 창에서 세 작업을 섞어 돌리고 있진 않죠?
/clear vs /compact vs /effort 차이
| 상황 | 바로 쓸 명령 | 이유 |
|---|---|---|
| 완전히 다른 작업으로 넘어감 | /clear |
오래된 컨텍스트를 잘라냄 |
| 같은 작업인데 대화만 길어짐 | /compact Focus on code samples and failing tests |
필요한 요약만 남김 |
| 단순 수정이나 확인 작업 | /effort low |
thinking 토큰을 덜 씀 |
| 1M 컨텍스트가 과한 세션 | CLAUDE_CODE_DISABLE_1M_CONTEXT=1 |
긴 세션 비용 상한을 낮춤 |
실제 흐름은 이렇게 잡으면 돼요.
# 같은 작업인데 대화가 길어졌을 때
/compact Focus on code samples and failing tests
# 완전히 다른 작업으로 바뀌면
/clear
# 단순 수정이면 추론 강도를 낮춘다
/effort low
1M 컨텍스트와 thinking budget
1M 컨텍스트는 이름 그대로 한 번에 최대 100만 토큰까지 담는 긴 세션 모드예요. 크고 편한 대신, 지금 작업에 그만한 길이가 필요 없으면 비용만 커질 수 있죠. 아예 끄고 싶다면 아래처럼 테스트해볼 수 있어요.
# 예시: 1M 컨텍스트를 꺼서 긴 세션 비용을 제한
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
MAX_THINKING_TOKENS=8000 같은 고정 thinking budget은 여전히 후보예요. 다만 공식 모델 문서를 보면 Opus 4.7은 adaptive reasoning이 기본이라, 예전처럼 똑같이 먹힌다고 단정하면 안 돼요. 이런 분기 기준은 Claude Opus 4.7 vs Sonnet 4.6: 코드 작업별 선택과 비용 비교와 Claude Code thinking 모드: low/medium/high/xhigh 언제 쓰는지를 같이 보면 감보다 훨씬 빨리 정리돼요.
구독, API, 그리고 쓰는 환경별로 비용 기준이 달라요
Claude Code 비용 절감을 팀 단위로 보려면, 개인 구독과 팀 자동화 비용을 같은 칸에서 보면 안 돼요. Claude Code는 터미널만 있는 도구가 아니라 여러 사용 환경에서 같은 엔진을 돌리기 때문에, 어디서 토큰이 새는지 같이 봐야 해요.
팀은 GitHub Actions까지 돌리는데 개인 CLI 비용만 보고 있었던 건 아니죠?
사용 환경별로 어디서 새는지부터 본다
| 사용 환경 | 공식 지원 범위 | 비용 볼 포인트 |
|---|---|---|
| 터미널 CLI | claude, /usage, /model, /clear |
세션 길이, 캐시 미스, 병렬 세션 |
| VS Code / Cursor | 확장 패널 + CLI 포함 | 편하지만 같은 usage 풀을 먹음 |
| JetBrains | IntelliJ, PyCharm, WebStorm 등 플러그인 | 선택 영역 공유가 편한 대신 긴 세션은 똑같이 비쌈 |
| 데스크톱 앱 | macOS, Windows 스탠드얼론 | 여러 세션 동시 실행, 예약 작업, 클라우드 세션 체크 |
| 웹 / 원격 제어 / Claude iOS 앱 | 브라우저 기반 작업, 로컬 없는 클라우드 작업, 웹 UI 원격 제어 | 로컬 실행인지 클라우드 실행인지 구분해서 보기 |
| Slack / Chrome 확장(베타) | 채널·브라우저 문맥 연결 | 짧은 작업엔 편하지만 큰 문맥 붙이면 금방 부풀 수 있음 |
| GitHub Actions / Agent SDK | CI/CD와 자동화 파이프라인 | 트리거 빈도, 기본 모델, 반복 실행 횟수 |
특히 GitHub Actions는 트리거 빈도가 높아서, CLI usage bar에는 잡히지 않아도 청구서에는 따로 잡혀요. 팀 단위로는 CI/CD 라인을 따로 모니터링하는 쪽이 훨씬 정확해요.
구독·API 가격표와 캐시 단가
가격은 2026-04-30 기준으로 이렇게 봐두면 돼요.
| 항목 | 공식 가격 |
|---|---|
| Pro | 월 $20, 연간 환산 월 $17 |
| Max 5x | 월 $100 |
| Max 20x | 월 $200 |
| Opus 4.7 API | 입력 $5 / MTok, 출력 $25 / MTok |
| Sonnet 4.6 API | 입력 $3 / MTok, 출력 $15 / MTok |
| Haiku 4.5 API | 입력 $1 / MTok, 출력 $5 / MTok |
| Batch API | 입력·출력 모두 50% 할인 |
| Cache read hit | 기본 입력 단가의 10% |
캐시 쪽 숫자도 같이 봐야 해요. 공식 가격 문서 기준으로 5분 캐시 write는 기본 입력 단가의 1.25x, 1시간 캐시 write는 2x, cache hit은 0.1x예요. 그러니까 캐시를 못 맞히는 자동화가 많다면 구독이든 API든 그냥 새는 셈이죠.
여기서 팀이 놓치기 쉬운 포인트가 하나 더 있어요. GitHub Actions는 기본이 Sonnet이고, Opus 4.7을 쓰려면 따로 모델을 잡아야 해요. CI/CD 한 번 한 번은 짧아 보여도, PR 코멘트 트리거가 많으면 생각보다 빨리 쌓여요. 실시간이 필요 없는 분류 작업이나 리포트 생성은 Batch나 Haiku로 내리는 쪽이 낫고, 이 기준은 Claude Haiku 4.5로 비용 1/5 코딩: Opus 대신 써야 할 때는 언제?에서 더 촘촘하게 정리해뒀어요.
자주 묻는 질문
Q1: 하루에 얼마나 쓸 수 있나요? 금방 한도가 차는 것 같아요
A: 정확한 토큰 한도는 공개되지 않아요. 공식 도움말 기준으로 Max는 5시간 단위 usage 제한이 있고, 실제 소진 속도는 모델, 대화 길이, 첨부 파일, 현재 트래픽에 따라 달라져요.
Q2: Max 5x인데 1~2시간 만에 다 차요. 아직도 버그인가요?
A: 2026-03-23 전후에는 실제로 비정상 소진 이슈가 컸고, 2026-04-23 포스트모텀 기준 주요 원인은 수정됐어요. 지금도 비슷하다면 먼저 claude --version, /usage 화면, 세션 길이, 모델을 같이 남겨서 현재 문제인지 과거 패턴 재현인지부터 가르는 게 맞아요.
Q3: API 키가 구독보다 무조건 싸요?
A: 아니에요. Claude Code 비용 절감 관점에서는, 짧고 반복적인 자동화는 API와 Batch가 유리할 수 있고 대화형 코딩을 오래 붙잡는 사람은 Max가 더 나을 때도 있어요. Sonnet 4.6 기준 API는 입력 $3 / MTok, 출력 $15 / MTok이고 Batch는 그 절반이라, 반복 작업인지 대화형 작업인지부터 나눠야 해요.
Q4: CLAUDE.md는 얼마나 줄여야 해요?
A: 공식 문서는 CLAUDE.md를 대략 200줄 이하로 권해요. 세션 시작 때마다 읽는 파일이라 길어질수록 기본 요금이 쌓인다고 보면 되고요. 자주 안 쓰는 지침은 Skills로 빼는 쪽이 보통 나아요.
Q5: /compact랑 /clear는 언제 어떤 걸 써요?
A: 같은 작업인데 대화만 길어졌다면 /compact가 맞아요. 완전히 다른 작업으로 넘어가면 /clear를 쓰세요. 섞어 쓰면 이전 문맥이 계속 붙어서 비용도 늘고 판단도 흐트러져요.
다음 단계
Claude Code 비용 절감은 한 번에 끝내는 일이 아니에요. 지금 세션에서 /usage를 한 번 열고, 기본 모델이 Opus면 먼저 sonnet으로 내려 보세요. 그다음 읽지 않을 경로 목록과 CLAUDE.md 길이만 손봐도 다음 5시간 창 체감이 꽤 달라질 거예요. 그래도 한도 막대가 빠르게 차면 Anthropic 상태 페이지부터 한 번 보고, 제품 측 이슈가 아닌 게 확실해지면 본문 순서대로 다시 점검해 보세요.
관련 글: Claude Code MCP 500K 컨텍스트 활용
관련 글: v0 vs Lovable vs Bolt 비교
