devway
홈전체 글태그

카테고리

  • 전체40
  • 인프라3
    • 하드웨어2
    • ubuntu1
  • AI34
    • 로컬 LLM8
    • AI 코딩 도구9
    • 컴퓨터 비전4
    • 디자인1
    • 이미지생성2
    • 데이터 아키텍쳐0
    • agent2
    • 모델3
  • Backend1
  • Architecture2
    • 분산 시스템1
    • 데이터0

태그

  • #로컬LLM9
  • #ClaudeCode9
  • #AI개발7
  • #LocalLLM6
  • #AI에이전트5
  • #에이전트4
  • #컴퓨터비전4
  • #MCP4
  • #LLM4
  • #RTX30904
  • #AI코딩4
  • #Anthropic4
  • #모델비교3
  • #객체탐지3
  • #로컬AI3
  • #딥러닝3
  • #개발도구3
  • #Gemma43
  • #이미지생성3
  • #백엔드3

구독

  • RSS
  • Sitemap
하드웨어 · 2026-03-22 · 10분

2026년에 로컬 AI 머신 짜려다가 결국 이거 샀음

클라우드 API 비용 무서워서 로컬 AI 머신 견적 일주일 굴린 후기. RTX 5090부터 중고 3090, M5 Max까지 직접 비교하고, 한국 전기료/아파트 환경까지 고려해서 결국 어떤 조합이 답인지 정리. 가성비 정답은 의외로 단순함.

목차
  • 왜 굳이 로컬로 가야 하나
  • GPU 옵션 — 한국 가격 기준으로
  • Apple Silicon은 어땠냐면
  • 듀얼 3090이라는 변태 빌드
  • 솔직히 단점도 있음
  • 결국 결론

2026년에 로컬 AI 머신 짜려다가 결국 이거 샀음#

요즘 ChatGPT, Claude API 청구서 받고 좀 어이없어지는 순간이 자주 와요. 처음엔 한 달에 2~3만원 쓰던 게 어느새 10만원을 넘기 시작했고, 지난달엔 17만원 찍힘. 에이전트 돌리고, 코드 리팩토링 시키고, 이것저것 자동화하다 보니까 토큰이 무슨 물처럼 빠져나감.

그래서 일주일 동안 로컬 AI 머신 견적 짰어요. 다나와 들락거리고, 중고나라 매물 100개 넘게 봤음. 결론부터 말하면 — 결국 산 건 중고 RTX 3090 입니다. 왜 5090도 4090도 아니고 그걸 골랐는지, 그 과정이 좀 길었어요.

GPU 가격 비교 사이트와 손글씨 견적표가 펼쳐진 책상 위 늦은 밤 풍경

왜 굳이 로컬로 가야 하나#

API 쓰는 게 편한 건 맞아요. 카드 한 번 꽂으면 끝이니까. 근데 2026년 들어서 분위기가 좀 변했어요.

첫째는 토큰 인플레이션. 모델들이 점점 말이 많아져요. 예전엔 "응 알겠어"하고 끝낼 거를 요즘엔 세 단락으로 풀어서 설명함. 입력 토큰도 늘고 출력 토큰도 늘고. 작년 대비 같은 작업에 토큰이 30~50% 더 들어가는 느낌. 가격은 안 내렸는데 사용량이 알아서 늘어나는 구조.

둘째는 오픈소스 모델이 쓸만해짐. 이게 진짜 큼. 2024~2025년만 해도 로컬 모델은 '장난감' 느낌이었거든요. 근데 지금은 다름. Qwen 3.5 시리즈가 나오면서 27B 덴스 모델이 일상 작업에선 GPT-4.1이랑 거의 차이 안 남. Qwen3-Coder-Next는 80B 중에 3B만 활성화되는 MoE 구조라 RTX 3090 한 장에서도 Sonnet 4.5급 코딩이 뽑힘.

셋째는 좀 개인적인 건데, 내 데이터가 내 거라는 게 의외로 좋아요. 회사 코드 같은 거 클라우드에 던지는 게 늘 찜찜했거든요. 로컬에선 그런 고민이 아예 없음.

GPU 옵션 — 한국 가격 기준으로#

여기서 충격받았어요. 미국 가격이랑 한국 가격이 너무 다름.

RTX 5090 — 미국 MSRP가 1,999달러였는데 지금 한국에선 600만원 넘게 받음. 32GB VRAM이고 4090 대비 60~80% 빠르긴 한데... 솔직히 600만원 쓸 거면 그냥 클라우드 API 5년치 쓰는 게 낫지 않나 싶더라고요. 575W 소비전력은 덤. 한국 아파트 누진제 생각하면 여름에 무조건 후회함.

RTX Pro 6000 (Blackwell) — 96GB VRAM. 가격이 1,200만원 근처. 이건 그냥 회사 비용으로 사는 거지 개인이 살 게 아니에요. 여러 모델 동시 돌리거나 파인튜닝하는 사람 아니면 의미 없음.

RTX 4090 — 신품 350~400만원, 24GB VRAM. 가성비 무너진 지 오래됐어요. 출시가 대비 100만원 이상 비싸짐. 중고도 상태 좋은 건 280~300만원 부르는데 그 돈 주고 사느니...

RTX 3090 — 여기서 게임이 끝남. 중고가 100~130만원. 24GB VRAM은 4090이랑 동일. 속도는 4090보다 15~20% 느린 정도. 메모리 대역폭이 936 GB/s인데 이게 토큰 생성 속도에 직접 영향 주는 핵심이라, M4 Max(546 GB/s)나 심지어 M5 Max(614 GB/s)보다도 빠름.

잘 관리된 중고 RTX 3090 그래픽카드의 클로즈업 사진

Apple Silicon은 어땠냐면#

한 3일 정도 진지하게 M5 Max 맥북프로 쪽도 봤어요. 한국 가격 600만원대. 솔직히 끌렸음. 무소음에 발열 적고 노트북이라 휴대도 됨.

근데 토큰 생성 속도 벤치마크 보다가 멈췄어요. M5 Max 신품이 600만원인데 중고 3090(120만원)보다 추론 속도가 느림. 가격 대비 토큰 생성량 계산하면:

  • RTX 3090: 0.9 tok/$
  • M4 Max(중고): 0.6 tok/$
  • M5 Max(신품): 0.4 tok/$

전력 효율은 확실히 애플이 압승이에요. M5 Max가 90W인데 5090은 575W니까. 근데 한국 가정 전기료가 미국 대비 그렇게 비싼 것도 아니라서, 추론 속도 절반 가까이 포기하면서 살 이유가... 잘 안 보이더라고요.

(노트북이 필요한 사람은 다른 이야기. 데스크톱 이미 있으면 그냥 3090이 답.)

듀얼 3090이라는 변태 빌드#

이건 좀 사이드 트랙인데 흥미로운 옵션이에요. 중고 3090 두 장에 250만원 정도면 됨. VRAM 합치면 48GB. 70B 모델도 양자화 없이 돌릴 수 있음.

문제는 파워랑 케이스. 1300W 파워서플라이 필요하고, 풀타워 케이스 아니면 안 들어감. PCIe 슬롯 간격도 봐야 하고. 발열은 두 배가 됨. 진심으로 이거 짤 생각이면 방 에어컨 따로 켜야 합니다.

저는 처음엔 이거 가려다가 '아 너무 오버다' 싶어서 단일 3090으로 정착함. 27B 모델 정도가 일상에서 가장 자주 쓰는 사이즈고, 그건 24GB로 충분해요.

듀얼 GPU 빌드의 케이스 내부와 굵직한 전원 케이블

솔직히 단점도 있음#

로컬 AI 만세!만 쓰면 거짓말이에요. 직접 굴려보니 짜증나는 부분들:

전기료가 생각보다 나옴. 3090을 매일 8시간씩 풀로 굴리면 한 달 전기료 2~3만원 추가됨. 여름엔 누진제 걸리면서 더 늘어남. 5090이면 두 배. 클라우드 API 안 쓴다고 공짜는 아니에요.

셋업 진입 장벽 있음. llama.cpp 빌드, CUDA 드라이버, 양자화 모델 고르기, 플래그 세팅... 처음 이틀은 진짜 머리 아팠어요. Ollama로 시작하면 쉽긴 한데 MoE 모델 최적화가 안 돼서 결국 llama.cpp로 넘어가게 됨.

진짜 어려운 추론은 아직 클라우드. 일상 코딩, 일반 질문은 로컬로 다 됨. 근데 정말 깊은 분석이나 복잡한 수학 같은 건 가끔 GPT-5나 Claude 최신 모델이 필요해요. 100% 로컬로 가는 건 아직 무리.

중고 GPU는 도박. 채굴 카드 피하려고 진짜 신경 많이 썼어요. 결국 컴퓨존 중고 인증품 코너에서 130만원에 샀는데, 일반 중고나라 매물보다 30만원 비쌌지만 6개월 보증 붙어서 마음 편함. 처음이라면 이쪽 추천.

결국 결론#

저는 중고 RTX 3090 한 장 + 64GB RAM + 1TB NVMe 조합으로 갔어요. 토탈 200만원 좀 넘게 들었고, ChatGPT Plus + Claude Pro + API 비용 1년치 대비 살짝 비싼 수준. 1년 쓰면 본전, 2년 쓰면 무조건 이득.

5090 사고 싶다는 욕망은 솔직히 아직 있어요. 근데 600만원으로 뭘 얼마나 더 잘 돌릴 건가 자문해보면, 제 워크로드엔 오버스펙. 4090도 마찬가지. 돈 아끼고 싶은 사람한테는 3090이 압도적인 정답이고, 진짜 24/7 헤비유저면 5090 가는 게 맞을 듯.

NVIDIA DGX Spark(550만원, 128GB 통합 메모리) 같은 옵션도 있긴 한데, 그건 PC 조립 진짜 하기 싫은 사람용이에요. 시간을 돈으로 사는 옵션.

3PM 금요일에 클라우드 API가 갑자기 rate limit 걸렸을 때, 내 머신은 묵묵히 돌아가고 있더라고요. 그 순간의 안도감, 한 번 맛보면 끊기 어렵습니다.

  • #로컬AI
  • #GPU
  • #RTX3090
  • #LocalLLM
  • #AI머신
  • #PC견적
  • #LocalAI
D

devway

AI 도구로 실제 서비스 운영하면서 손에 쥔 결과만 적는 1인 개발 노트. RTX 3090 + 로컬 LLM 환경에서 직접 굴려보고 글로 옮긴다.

소개전체 글RSS

관련 글

AI/로컬 LLM2026-05-09

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

영어권 개발자 블로그에서 자주 보이는 Ollama·LM Studio·Jan 비교 글들이 결국 같은 결론으로 흘러가는 패턴을 짚고, 그 안에서 빠져 있는 모델 선택·fine-tuning·한국어 품질 문제를 한국 개발자 관점에서 정리. 도구 비교는 30%, 진짜 차이를 만드는 건 모델과 운영 시나리오 70%라는 게 핵심.

  • #로컬LLM
  • #로컬AI
  • #AI도구
  • +6
AI/로컬 LLM2026-05-07

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.

  • #Gemma4
  • #로컬LLM
  • #SpeculativeDecoding
  • +7
AI/로컬 LLM2026-03-26

Qwen 3.5 35B-A3B 깔고 나서 GPT 구독 끊을 뻔함

Alibaba Qwen 팀이 풀어놓은 35B-A3B 로컬 모델을 RTX 3090에 직접 돌려본 후기. 3B 액티브 파라미터로 Sonnet 4.5급 코딩을 뽑아내는 MoE 구조, 110 tok/s 만드는 플래그 셋업, Ollama가 왜 답이 아닌지까지 정리.

  • #로컬LLM
  • #Qwen
  • #AI코딩
  • +4

댓글

(댓글 미설정 — NEXT_PUBLIC_GISCUS_* 환경변수 구성 필요)
소개개인정보처리방침RSSSitemapaickywayconvertprompt
© devway