로컬 LLM · 2026-05-04 · 14분

토큰 다 써서 오늘 일 못 한다는 사람이 늘고 있음

에이전틱 개발이 일상이 되면서 토큰 한도가 새로운 생산성 병목이 되어가는 중. 클라우드 단일 의존이 만든 redundancy 문제, pay-to-win 경쟁 구조, 로컬 모델이 지금 와있는 자리, 그리고 한국 개발자 입장에서 더 따끔한 부분까지 정리.

요즘 "오늘 토큰 다 써서 더 못 함, 내일 봅시다" 식으로 말하는 개발자가 한 명씩 늘고 있음. 처음엔 농담인줄 알았는데 잘 들어보면 진심이더라고요. 회사가 월 단위 토큰 예산 잡아놓고, 그게 어떤 날엔 점심 먹고 나서 바닥. 본인 노트북 멀쩡, 인터넷 멀쩡, 그런데 Claude Code나 Cursor가 응답을 안 주니 손이 묶임. 그대로 퇴근하거나, 손코딩으로 회귀하거나.

이게 좀 이상한 풍경이라는 게 솔직한 생각임. 옛날엔 빌드 머신이 느리다, 사무실 와이파이 끊긴다 이런 게 생산성 병목이었는데 지금은 토큰 잔량이 병목. 더 황당한 건 그 병목을 본인이 제어 못 함. 클라우드 회사가 한도를 정해줌.

본문에 몇 단어가 반복해서 나오니 미리 짚고 갈게요. 토큰은 LLM이 텍스트를 처리·과금하는 최소 단위로, 사용량의 기준이 되는 그것. 에이전틱 개발은 LLM이 단발 응답이 아니라 작업을 분해해서 코드 작성·실행·디버그까지 자율적으로 돌리는 패턴. 바이브 코딩은 정확히 뭘 짤지 안 정한 채 LLM이랑 대화하면서 즉흥적으로 만들어가는 흐름. 엄밀한 정의는 아니지만 이 글 읽는 데는 이 정도면 충분합니다.

새로운 종류의 시간제한

토큰 레이트 리밋이 만든 가장 직접적인 변화는, 개발자의 하루가 더 짧아졌다는 것. 9시간 근무라고 하면 그 9시간을 다 쓸 수 있어야 정상인데 어떤 날은 5시간, 어떤 날은 2시간으로 쪼그라들어요. 그러면 본능적으로 작업 패턴이 바뀝니다. 토큰 좀 남아있을 때 핵심 일 빨리 처리하려고 무리하고, 떨어지면 회의 잡거나 문서 정리로 시간을 채우게 되거든요.

며칠은 괜찮은데 분기 단위로 누적되면 좀 걱정스러움. 회사 입장에서 보면 시니어 한 명한테 연봉 외에 토큰 1년 비용을 따로 얹어주고 있는데, 정작 마감 직전엔 한도 초과로 멈추는 꼴. 옛날엔 카페인 떨어진 게 한계였다면 이젠 크레딧이 한계임.

클라우드 단일 의존이라는 폭탄

조금 더 큰 시야로 보면 더 무섭습니다. 작년 CrowdStrike 사태 때 항공·은행·병원이 동시에 멈췄던 거 다들 기억할 거고, AWS 한 리전 죽으면 인터넷 절반이 같이 죽는 것도 한두 번 본 게 아님. 단일 장애점(SPOF)이 만든 결과인데, 같은 패턴이 지금 개발 환경에서 그대로 반복되고 있어요.

OpenAI나 Anthropic이 잠깐 흔들리면 그 위에 얹힌 코딩 에이전트가 같이 흔들리고, 그 에이전트에 의존하던 개발팀 전체 속도가 멈춥니다. 옛날엔 인터넷 끊겨도 노트북에서 빌드 돌릴 수 있었는데 지금은 인텔리전스 자체가 외부에 있다 보니 끊기면 그냥 끝. 본인이 짠 코드가 사실은 클라우드에서 만들어진 스트리밍 결과물이라는 사실, 좀 받아들이기 불편한 부분이긴 합니다.

가는 선 하나로 거대한 클라우드에 매달려 있는 노트북 - 단일 의존 구조의 위태로움

pay-to-win 구조, 한국에서는 더 따가움

여기서 한국 개발자 입장으로 한 번 비틀어볼게요. 영어권에서 토큰 비용 얘기할 때 보통 "한 달 100~200달러" 식으로 가벼워 보이는데, 환율 1,400원 시대에 이게 그대로 한국 작은 회사 P&L로 들어오면 꽤 무겁습니다. 1인 개발자나 부트스트랩 스타트업 기준으로는 시니어 한 명 인건비에 토큰 비용까지 안고 가야 하는데, 매출 구조 자체를 다시 봐야 하는 수준의 부담이거든요.

거기에 카드 결제할 때마다 외화 수수료 붙고, 영수증은 영문이고, 회계 처리할 때 한 번 더 손이 가고. 자잘한 비용이 매달 쌓이면 결국 "잘 만든 아이디어"보다 "현금 여유 있는 팀"이 이기는 구조가 됨. 누가 더 빠르게 토큰을 태울 수 있느냐의 게임이라고 해야 하나.

이걸 두고 일부에선 "코딩의 민주화"라고 부르는데 솔직히 그건 아님. 코딩 민주화는 옛날에 무료 강의가 깔리면서 이미 한 번 일어난 일이고, 지금 일어나는 건 그 반대 방향임. 만들기 위해 매달 외화 구독료를 내야 하는 구조로의 재집중화에 가깝습니다.

개발 도구와 달러 지폐가 올려진 저울에서 돈 쪽이 무겁게 기운 모습 - 페이투윈 비유

로컬 모델은 지금 어디까지 와있나

그래서 로컬이 답이냐 하면, 솔직히 아직 좀 어려운 자리에 있어요. Qwen3-Coder, DeepSeek V3, Minimax M2, Gemma 4 같은 후보들이 있고 후기 보면 코드 생성 품질은 꽤 올라온 듯한데, 직접 다 돌려본 건 아니라 단언은 못 하겠습니다. 무엇보다 큰 모델일수록 내 환경에선 안 돌아감. RTX 3090에 10GB VRAM이라 30B 넘어가는 모델은 양자화해도 빠듯합니다.

자료들 종합해보면 단일 파일 수정이나 자동완성, 로컬 스니펫 정도는 충분히 쓸 만한 수준에 도달한 것 같고, 진짜 어려운 건 멀티 레포 컨텍스트 처리와 에이전트 워크플로 그 자체. 클라우드 에이전트가 토큰 무한 쓰듯이 던져대는 컨텍스트 윈도우와, 로컬에서 8K~32K로 짜내는 건 같은 게임이 아닙니다. 후기들 보면 다들 "단순 작업엔 충분, 복잡한 리팩터링엔 부족" 하는 식의 평이 많더라고요.

그래도 로컬을 끼고 가야 하는 이유

문제가 분명한데 왜 굳이 로컬을 끼우자는 거냐 하면, 이건 성능 문제가 아니라 회복력 문제임. Cursor 구독 끊을 필요 없고 Claude Code도 계속 쓰면 됩니다. 다만 그게 죽었을 때 0이 되느냐, 50%로 떨어지느냐의 차이가 시간 지날수록 커질 거라고 보거든요.

본인이 운영하는 aickyway.com도 외부 모델 API에 어느 정도 의존하고 있는데, 메인 흐름이 막혔을 때 폴백 경로 하나는 무조건 로컬에 깔아둠. 코딩 환경도 결국 같은 구조여야 합니다. 메인은 클라우드 에이전트, 폴백은 로컬 모델, 최후엔 손코딩. 이 세 단계가 다 살아있는 사람이 진짜 단단한 개발자임.

GPU LED가 빛나는 홈 오피스의 데스크톱 PC와 코드 터미널이 띄워진 모니터

잠깐 옆길 - 사이드 프로젝트는 더 빡셈

사실 회사에서야 토큰 떨어져도 다른 일을 채우면 어떻게든 굴러가는데, 사이드 프로젝트는 좀 다름. 평일 밤 두세 시간이 전부인데 그 시간에 클라우드 모델이 한도 초과 나면 그 날은 그냥 끝납니다. 폼 잡으려고 하는 말이 아니라, 한 달 누적하면 이게 진짜 큼. 그래서 개인적으로는 사이드 작업할 때 일부러 로컬 작은 모델 켜놓고 자동완성·간단 리팩터링은 거기로 돌리는 흐름을 만들어가는 중. 어디까지 끼울 수 있는지가 이번 분기 개인 숙제 같은 느낌이네요.

솔직히, 로컬도 다 좋은 건 아님

로컬 모델 끼우는 거에도 비용 있어요. 셋업 시간 만만치 않고, VRAM 부족하면 뭘 해도 답답하고, 모델 업데이트 따라가는 것도 일임. 클라우드처럼 "그냥 켜면 돌아간다"가 아니라 "내가 환경 깔고 모델 받고 컨텍스트 관리하는" 구조라, 본업이 ML 엔지니어가 아니면 부담이 큽니다.

그리고 요즘 클라우드 모델 발전 속도가 워낙 빨라서, 로컬이 1년 전 클라우드를 따라잡으면 클라우드는 또 그만큼 앞으로 가있어요. 격차가 줄지 안 줄지는 더 봐야 알 듯. 안 써본 입장에서 단정은 못 하겠는데, 분위기상 클라우드 진영이 로컬에 양보할 생각은 별로 없어 보입니다.

클라우드 환경과 로컬 환경 사이에서 균형 잡고 작업하는 개발자 - 하이브리드 구조

마무리

결론은 단순함. 클라우드 에이전트만 쓰는 사람은 클라우드가 흔들릴 때 똑같이 흔들리고, 로컬만 고집하는 사람은 속도에서 밀리고, 둘 다 끼우는 사람이 결국 이깁니다. 비용이 두 배라는 게 아니라 위험 분산이 두 배라는 의미.

그리고 한 가지 더, 손코딩 근육 자체를 잃지 않는 게 중요함. 에이전트한테 다 맡기다 보면 어느 순간 본인이 만든 코드가 외계어처럼 보이는 시점이 옵니다. 그게 시작되면 시니어로 가는 길이 막혀요. 도구가 먼저 있고 그걸 쓰는 사람은 그 다음, 이 순서 뒤집히면 곤란함.

다음 글에선 RTX 3090급 중급 머신에서 현실적으로 끼울 만한 로컬 모델 조합과, Claude Code랑 어떻게 같이 굴릴지 본인 셋업 정리 한 번 해볼 예정.

AI로컬 LLM2026-03-26

로컬 LLM · 2026-05-04 · 14분

토큰 다 써서 오늘 일 못 한다는 사람이 늘고 있음

새로운 종류의 시간제한

클라우드 단일 의존이라는 폭탄

pay-to-win 구조, 한국에서는 더 따가움

로컬 모델은 지금 어디까지 와있나

그래도 로컬을 끼고 가야 하는 이유

잠깐 옆길 - 사이드 프로젝트는 더 빡셈

솔직히, 로컬도 다 좋은 건 아님

마무리

다음 글에선 RTX 3090급 중급 머신에서 현실적으로 끼울 만한 로컬 모델 조합과, Claude Code랑 어떻게 같이 굴릴지 본인 셋업 정리 한 번 해볼 예정.

AI로컬 LLM2026-03-26

토큰 다 써서 오늘 일 못 한다는 사람이 늘고 있음

새로운 종류의 시간제한

클라우드 단일 의존이라는 폭탄

pay-to-win 구조, 한국에서는 더 따가움

로컬 모델은 지금 어디까지 와있나

그래도 로컬을 끼고 가야 하는 이유

잠깐 옆길 - 사이드 프로젝트는 더 빡셈

솔직히, 로컬도 다 좋은 건 아님

마무리

관련 글

Qwen 3.5 35B-A3B 깔고 나서 GPT 구독 끊을 뻔함

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Claude Code 옆에 캐시 레이어 붙이겠다는 발상

댓글

토큰 다 써서 오늘 일 못 한다는 사람이 늘고 있음

새로운 종류의 시간제한

클라우드 단일 의존이라는 폭탄

pay-to-win 구조, 한국에서는 더 따가움

로컬 모델은 지금 어디까지 와있나

그래도 로컬을 끼고 가야 하는 이유

잠깐 옆길 - 사이드 프로젝트는 더 빡셈

솔직히, 로컬도 다 좋은 건 아님

마무리

관련 글

Qwen 3.5 35B-A3B 깔고 나서 GPT 구독 끊을 뻔함

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Claude Code 옆에 캐시 레이어 붙이겠다는 발상

댓글

새로운 종류의 시간제한#

클라우드 단일 의존이라는 폭탄#

pay-to-win 구조, 한국에서는 더 따가움#

로컬 모델은 지금 어디까지 와있나#

그래도 로컬을 끼고 가야 하는 이유#

잠깐 옆길 - 사이드 프로젝트는 더 빡셈#

솔직히, 로컬도 다 좋은 건 아님#

마무리#

관련 글

Qwen 3.5 35B-A3B 깔고 나서 GPT 구독 끊을 뻔함

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Claude Code 옆에 캐시 레이어 붙이겠다는 발상

댓글

새로운 종류의 시간제한#

클라우드 단일 의존이라는 폭탄#

pay-to-win 구조, 한국에서는 더 따가움#

로컬 모델은 지금 어디까지 와있나#

그래도 로컬을 끼고 가야 하는 이유#

잠깐 옆길 - 사이드 프로젝트는 더 빡셈#

솔직히, 로컬도 다 좋은 건 아님#

마무리#

관련 글

Qwen 3.5 35B-A3B 깔고 나서 GPT 구독 끊을 뻔함

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Claude Code 옆에 캐시 레이어 붙이겠다는 발상

댓글

새로운 종류의 시간제한

클라우드 단일 의존이라는 폭탄

pay-to-win 구조, 한국에서는 더 따가움

로컬 모델은 지금 어디까지 와있나

그래도 로컬을 끼고 가야 하는 이유

잠깐 옆길 - 사이드 프로젝트는 더 빡셈

솔직히, 로컬도 다 좋은 건 아님

마무리

새로운 종류의 시간제한

클라우드 단일 의존이라는 폭탄

pay-to-win 구조, 한국에서는 더 따가움

로컬 모델은 지금 어디까지 와있나

그래도 로컬을 끼고 가야 하는 이유

잠깐 옆길 - 사이드 프로젝트는 더 빡셈

솔직히, 로컬도 다 좋은 건 아님

마무리