devway
홈전체 글태그

카테고리

  • 전체40
  • 인프라3
    • 하드웨어2
    • ubuntu1
  • AI34
    • 로컬 LLM8
    • AI 코딩 도구9
    • 컴퓨터 비전4
    • 디자인1
    • 이미지생성2
    • 데이터 아키텍쳐0
    • agent2
    • 모델3
  • Backend1
  • Architecture2
    • 분산 시스템1
    • 데이터0

태그

  • #로컬LLM9
  • #ClaudeCode9
  • #AI개발7
  • #LocalLLM6
  • #AI에이전트5
  • #에이전트4
  • #컴퓨터비전4
  • #MCP4
  • #LLM4
  • #RTX30904
  • #AI코딩4
  • #Anthropic4
  • #모델비교3
  • #객체탐지3
  • #로컬AI3
  • #딥러닝3
  • #개발도구3
  • #Gemma43
  • #이미지생성3
  • #백엔드3

구독

  • RSS
  • Sitemap
하드웨어 · 2026-05-01 · 10분

Mac 두 대 묶어서 80B 굴리는 Exo, 우분투에선 아직 한참 멀었음

Mac Mini와 MacBook Pro 두 대를 클러스터로 묶어 80B 모델을 70 tok/s 넘게 돌렸다는 영문 후기를 봤다. OpenAI 호환 API라 갈아끼우기는 좋아 보이는데, Linux 빌드는 아직 CPU 전용이라 우분투 서버 운영하는 입장에선 그림의 떡. 한국 1인 개발자 비용 관점에서 합리적인 시나리오와, Apple Silicon 종속 도구가 늘어나는 흐름에 대한 후기.

목차
  • 한 대가 못 버티는 모델을 여러 대로 쪼개는 발상
  • 나한테 진짜 매력적이었던 건 OpenAI 호환 API
  • 성능 수치는 일단 인상적임 (자기들 주장)
  • 근데 우분투 운영자 입장에선 좀 김샘
  • 한국 환경에서 합리적인 시나리오는?
  • 잠깐 곁가지로 — Apple Silicon 종속 도구가 너무 많아짐
  • LM Studio Link랑 어떻게 다른가
  • 그래서 결론

어디서 봤더라, 영문 블로그 하나 읽다가 흥미로운 도구를 알게 됐음. Mac Mini랑 MacBook Pro 두 대를 묶어서 80B 모델을 70 tok/s 넘게 돌렸다는 후기였는데, 사용한 도구가 Exo라는 오픈소스. 처음엔 "또 그냥 LM Studio 같은 거겠지" 싶었는데 동작 방식이 좀 다르더라고요.

Mac 두 대를 케이블로 연결한 분산 추론 클러스터 컨셉 이미지

한 대가 못 버티는 모델을 여러 대로 쪼개는 발상#

LM Studio Link 같은 도구는 강한 머신 한 대 + 약한 머신 여러 대 구조거든요. 강한 쪽이 모델을 돌리고 나머지는 클라이언트로 붙는 방식.

Exo는 정반대 방향임. 여러 머신의 RAM·CPU·GPU를 하나의 가상 클러스터처럼 묶어서 어떤 머신 한 대로도 못 돌릴 모델을 굴리는 게 목표. 자동 디스커버리로 같은 네트워크의 노드를 찾아내고, 모델 레이어를 각 디바이스 사양에 맞게 자동 분할함. 안 써봤는데 공식 GitHub 설명만 보면 토폴로지 인식 자동 병렬화가 핵심 셀링 포인트인 듯해요.

원문에서는 Mac Mini M4 16GB + MacBook Pro M4 Max 64GB 조합으로 돌렸다고 함. 합쳐서 80GB 가까이 되는 통합 메모리에 4-bit 양자화 80B 모델(약 44GB)을 올린 거고, 인퍼런스 중에 Mac Mini는 86°C까지 올라가는데 MacBook은 50°C 근처에서 놀고 있었다고. 부하 분산이 RAM 기준으로 계산되니 RAM 작은 쪽이 더 일을 많이 하는 셈인 듯.

나한테 진짜 매력적이었던 건 OpenAI 호환 API#

원문에서 가장 와닿았던 부분이 이거였어요. http://localhost:52415/v1로 OpenAI 스펙 그대로 노출되는 구조. 즉 LangChain이든 LlamaIndex든, 본인이 만든 FastAPI 서비스든 클라이언트 코드 한 줄도 안 바꾸고 로컬 클러스터를 백엔드로 갈아끼울 수 있다는 뜻.

이게 왜 중요하냐면, OpenAI나 Anthropic API로 프로토타입 만들다가 비용 부담되는 시점이 오면 그냥 base_url 한 줄 바꾸고 모델명만 갈아끼우면 끝나거든요. 코드 수정 거의 없음. 이런 "갈아끼우기 친화적" 설계는 진짜 잘 만들었음.

모델 레이어가 여러 디바이스에 자동 분산되는 개념도

성능 수치는 일단 인상적임 (자기들 주장)#

원문 환경에서 Qwen3-Next-80B-A3B-Thinking-4bit를 70~80 tok/s로 돌렸다고 함. TTFT는 쿼리 복잡도에 따라 4~11초. "왜 하늘이 파란가" 같은 단순 질문에 reasoning까지 포함해서 1,184 토큰 뱉는 데 큰 무리가 없어 보였어요.

직접 돌린 게 아니라 정확한 건 모르는데, 80B급 사고형(thinking) 모델을 가정용 와이파이 환경에서 70 tok/s 넘게 뽑아냈다는 게 사실이라면 꽤 의미있는 숫자임. 보통 이 정도 사이즈면 그냥 클라우드 인스턴스 띄우는 게 마음 편하거든요.

다만 후기 글이라는 게 보통 잘 나온 케이스 하나 골라서 쓰는 거라, 다른 프롬프트들도 일관되게 그 속도가 나오는지는 더 봐야 할 듯.

근데 우분투 운영자 입장에선 좀 김샘#

여기서부터가 본인이 이 글 쓰게 된 진짜 이유. Linux 빌드는 현재 CPU 전용임.

내 환경은 Mac/Windows에서 개발하다가 우분투 서버에 nginx 올려서 운영하는 구조라, 이런 식의 "Mac 생태계 안에서만 빛나는 도구"는 결국 답답해짐. M4의 MLX 백엔드, Thunderbolt 5 기반 RDMA(인터노드 지연 99% 절감 주장)... 다 Apple Silicon 가정. NVIDIA/AMD GPU 지원은 "actively under development"라고만 적혀 있는데, 이런 문구 진짜 조심해야 함. 6개월 뒤에 봐도 똑같이 적혀 있는 경우가 부지기수거든요.

추가로 걸리는 점들:

  • WiFi로 묶으면 RDMA 못 씀. 결국 Thunderbolt 5 케이블 직결이 사실상 전제고, 그 마저도 macOS 26.2 이상 필요
  • 노드 한 대가 죽으면 추론 전체가 멈추는 단일 장애 지점 문제는 문서에 명확히 다뤄지지 않음
  • 모델 다운로드 자체가 노드별로 되는지, 한 곳에서만 받는지 동작 방식이 글에서는 흐릿함

한국 환경에서 합리적인 시나리오는?#

원문 분위기는 "집에 굴러다니는 Mac 모아서 80B 모델 가능!"인데, 한국 1인 개발자/소규모 팀 기준으로 다시 따져봤습니다.

대충 견적을 잡아보면, Mac Mini M4 16GB + MacBook Pro M4 Max 64GB 조합이면 600만원대는 우습게 넘어가요. 같은 돈이면 RTX 4090 한 장에 본체 맞추고도 한참 남고, 그 한 장으로도 70B 4-bit는 무난하게 돌아감. 클라우드 A100 시간당 요금까지 같이 비교하면 24/7 안 돌리는 한 클라우드가 압도적으로 싸요.

그럼 누구한테 매력적이냐? 이미 Mac 여러 대 가지고 있는 사람한테나 의미있는 시나리오인 듯. 회사에 안 쓰는 M2/M3 Mac들 굴러다닌다거나, 본인이 MacBook이랑 Mac Studio 둘 다 있다거나. 새로 사서 구축할 가치는 솔직히 의심스러움.

분산 클러스터와 단일 고성능 데스크톱 환경 비교

잠깐 곁가지로 — Apple Silicon 종속 도구가 너무 많아짐#

요즘 자꾸 이런 "Apple Silicon 전용" 도구가 늘어나는 게 좀 신경 쓰이는데요. MLX 자체가 Apple 입장에선 잘 만든 프레임워크인 건 인정. 통합 메모리 구조에 최적화되어 있고 코드도 깔끔함. 근데 결국 Mac Studio 팔아먹는 데 쓰이는 셈이고, 오픈소스 도구가 Apple 제품군 마케팅 도구가 되는 흐름이라는 게 좀 묘함.

CUDA 생태계가 깡패긴 하지만 그래도 NVIDIA 하나만 잘 잡으면 데스크톱 → 워크스테이션 → 데이터센터 GPU까지 같은 코드 돌릴 수 있는 호환성은 무시 못 함. Apple 쪽은 갓 시작한 단계라 그런지 폐쇄성이 너무 두드러져요.

LM Studio Link랑 어떻게 다른가#

원문에서 깔끔하게 정리된 부분을 한 줄로 옮기자면:

  • LM Studio Link — 강한 머신 1대 + 약한 머신 여러 대. 한 호스트, 여러 클라이언트.
  • Exo — 여러 머신을 묶어서 더 큰 모델 굴림. 여러 호스트, 한 모델.

목적이 완전 다르니까 둘 중 어느 게 낫다는 비교는 의미없음. 본인 시나리오에 맞춰서 골라야 함.

그래서 결론#

Exo는 Mac 클러스터 가진 사람한테는 진짜 좋은 도구임. OpenAI 호환 API 하나만으로도 가져다 쓸 가치가 있어요. 근데 우분투 서버 중심으로 운영하는 풀스택 입장에선 아직 그림의 떡이고, 실제로 "이거 도입하자"고 결정하기까지는 Linux GPU 지원이 정식으로 들어와야 할 듯.

다음 글에서는 RTX 환경에서 비슷한 분산 추론 구성할 때 쓸 수 있는 옵션들 — vLLM의 tensor parallel, llama.cpp의 RPC 서버 모드 — 실제로 만져보고 비교해보려고 합니다. 사실 이쪽이 한국 개발자들한테 훨씬 현실적이거든요.

Thunderbolt 5 케이블이 Mac에 연결된 클로즈업 장면
  • #Exo
  • #로컬LLM
  • #분산추론
  • #Mac클러스터
  • #MLX
  • #LocalLLM
  • #DistributedInference
  • #Qwen3
  • #홈서버
  • #AI개발
D

devway

AI 도구로 실제 서비스 운영하면서 손에 쥔 결과만 적는 1인 개발 노트. RTX 3090 + 로컬 LLM 환경에서 직접 굴려보고 글로 옮긴다.

소개전체 글RSS

관련 글

AI/모델2026-05-09

NVIDIA가 옴니 모델 또 풀었는데, 진짜 봐야 할 건 벤치마크가 아님

NVIDIA가 며칠 전 공개한 30B-A3B 옴니 모달 모델 Nemotron 3 Nano Omni를 두고 다들 throughput·리더보드 얘기만 하는데, 진짜 메시지는 비전·오디오·언어 백본을 각각 best-of-breed로 골라 얇은 projector로 묶은 조립법 자체임. 에이전트 만드는 입장에서 이게 왜 중요한지 정리.

  • #NVIDIA
  • #Nemotron
  • #옴니모달
  • +6
AI/로컬 LLM2026-05-09

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

영어권 개발자 블로그에서 자주 보이는 Ollama·LM Studio·Jan 비교 글들이 결국 같은 결론으로 흘러가는 패턴을 짚고, 그 안에서 빠져 있는 모델 선택·fine-tuning·한국어 품질 문제를 한국 개발자 관점에서 정리. 도구 비교는 30%, 진짜 차이를 만드는 건 모델과 운영 시나리오 70%라는 게 핵심.

  • #로컬LLM
  • #로컬AI
  • #AI도구
  • +6
AI/로컬 LLM2026-05-07

1비트로 풀정밀도 따라잡았다는 8B 모델 — 후기 글들이 좀 이상함

1.15GB짜리 8B 모델 Bonsai 8B가 풀정밀도와 동급이라는 영문 후기 글들이 한 다스쯤 도는 중인데, 공식 모델 카드 숫자와 대조하면 일부 셀이 어긋나고 빠진 디테일도 보임. Qwen3 베이스라는 점, 실제로는 1.125비트라는 점, 한국어 약점 가능성까지 한 번 짚어봤음.

  • #1비트LLM
  • #BitNet
  • #PrismML
  • +6

댓글

(댓글 미설정 — NEXT_PUBLIC_GISCUS_* 환경변수 구성 필요)
소개개인정보처리방침RSSSitemapaickywayconvertprompt
© devway