devway
홈전체 글태그

카테고리

  • 전체40
  • 인프라3
    • 하드웨어2
    • ubuntu1
  • AI34
    • 로컬 LLM8
    • AI 코딩 도구9
    • 컴퓨터 비전4
    • 디자인1
    • 이미지생성2
    • 데이터 아키텍쳐0
    • agent2
    • 모델3
  • Backend1
  • Architecture2
    • 분산 시스템1
    • 데이터0

태그

  • #로컬LLM9
  • #ClaudeCode9
  • #AI개발7
  • #LocalLLM6
  • #AI에이전트5
  • #에이전트4
  • #컴퓨터비전4
  • #MCP4
  • #LLM4
  • #RTX30904
  • #AI코딩4
  • #Anthropic4
  • #모델비교3
  • #객체탐지3
  • #로컬AI3
  • #딥러닝3
  • #개발도구3
  • #Gemma43
  • #이미지생성3
  • #백엔드3

구독

  • RSS
  • Sitemap
로컬 LLM · 2026-04-28 · 9분

Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음

구글이 4월 초에 풀어버린 Gemma 4를 한 달간 직접 노트북에 깔아 굴려본 솔직한 후기. Apache 2.0으로 풀린 31B와 26B MoE 모델이 폐쇄 프론티어 모델을 어디까지 따라잡는지, 설치하다 폭사한 얘기, 그리고 한국어 처리나 검열 같은 실제 한계까지 정리.

목차
  • 일단 깔다가 한 번 폭사함
  • 라인업이 좀 영리함
  • 벤치마크가 좀 미쳐있음
  • Claude나 GPT랑 비교하면 어떻냐면
  • 잠깐 딴 얘기
  • Apache 2.0 - 사실 이게 진짜 큰 변화
  • 솔직한 단점들
  • 그래서 깔아야 됨?

원래 Gemma 시리즈는 거의 안 썼어요. 정확히는 Gemma 2 잠깐 깔아본 뒤 "이거 굳이 왜?" 하고 덮어둔 게 작년 말. 캐글에서 한 번 시연 돌리고 끝나는 그런 느낌이었거든요. 중국 쪽 DeepSeek이나 Qwen 3.5가 워낙 강력해서 Gemma는 그냥 구글이 흉내만 낸 모델로 분류해 두고 잊고 있었음.

근데 4월 2일에 Gemma 4 발표되고, 허깅페이스 CTO가 불 이모지 박아가며 "BREAKING NEWS"라고 올린 거 보고 한 번 더 속아보자 싶어서 깔았는데. 이번엔 진짜로 다르더라고요.

Gemma 4 로컬 LLM 신경망 시각화 이미지

일단 깔다가 한 번 폭사함#

처음엔 31B 덴스 모델을 32GB RAM 노트북에 욱여넣으려다가 OOM. 솔직히 욕심 부린 거. 결국 26B MoE 양자화 버전(Q4_K_M)으로 갈아탔는데 이게 신의 한 수였어요. 26B인데 추론 시 활성화되는 파라미터는 3.8B 뿐이라, 4B 모델 속도로 26B급 지능이 나옴. 좀 사기.

brew upgrade llama.cpp
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M

이거 한 줄이면 끝. GGUF 받는 데 30분 정도 걸렸는데 그 사이에 라면 끓여 먹음. 받고 나서 첫 응답 뜨는 순간 좀 소름 돋았어요. 클로드급 답변이 내 노트북에서 나오는 거니까.

라인업이 좀 영리함#

모든 사이즈를 다 풀어버린 게 핵심.

  • E2B / E4B: 진짜로 폰에서 돌아가는 사이즈. PLE라고 레이어마다 작은 임베딩 테이블 붙여서 "유효 파라미터"만 줄이는 트릭이 들어감
  • 26B MoE: 전문가 128명 중 8명만 골라서 작동. 활성 파라미터 3.8B
  • 31B 덴스: 플래그십. 80GB H100 한 장이면 양자화 안 해도 돌아감

작은 모델들은 텍스트, 이미지, 비디오 + 오디오 입력까지 받음. 큰 모델은 오디오 빼고 다 됨. 컨텍스트 윈도우는 최대 256K까지. 코드베이스 통째로 던져도 뭔가 쓸 만한 답이 나오는 수준이에요.

Gemma 4 네 가지 모델 사이즈 비교 시각화

벤치마크가 좀 미쳐있음#

이게 진짜 충격이었는데.

AIME 2026 (수학 경시) 점수가 89.2%. Gemma 3가 20.8%였음. 한 세대 만에 4배 점프.

코드포스 ELO는 더 미쳤어요. Gemma 3 110점 → Gemma 4 31B 2150점. 오타 아님. 110에서 2150. 솔직히 이런 점프는 처음 봅니다.

LiveCodeBench v6: 29.1% → 80.0%. 거의 3배. GPQA Diamond는 84.3% 찍는데, 이거 박사급 과학 문제고 인간 전문가 평균이 65% 정도라고 알려져 있는 벤치마크임.

26B MoE도 GPQA Diamond에서 82.3% 찍음. 활성 파라미터 3.8B로. 이게 가장 이상한 부분이에요. 4B 모델 속도로 이런 점수가 어떻게 나오는지 솔직히 좀 의심스러울 정도.

Claude나 GPT랑 비교하면 어떻냐면#

까놓고 얘기하면, Claude Opus 4.6이나 GPT-5.2한테는 졌어요. GPQA Diamond 기준으로 7~8점 차이. 누가 "Gemma 4가 Claude보다 낫다"라고 하면 그건 거짓말입니다.

근데 비교 자체가 잘못된 거기도 함. Claude Opus는 데이터센터에서 돌아가고 Gemma 4 31B는 내 노트북에서 돌아감. API 비용 0원. 데이터 외부로 안 나감. 벤더 종속 없음. 이 차이가 7~8점 벤치마크보다 훨씬 큰 가치인 경우가 많아요. 적어도 저한테는 그래요.

Apache 2.0 오픈소스 라이선스 자유 상징 이미지

잠깐 딴 얘기#

이거 깔아 놓고 모델 응답 비교한답시고 옆에서 라떼 식어버린 적이 두 번. 어쨌든.

Apache 2.0 - 사실 이게 진짜 큰 변화#

이전 Gemma는 구글 자체 라이선스였어요. 허용적이긴 했는데 진짜 오픈소스는 아니었음. 사용 제한, 콘텐츠 정책 같은 게 있었거든요. 이거 때문에 기업 도입이 자주 막혔고요.

근데 Gemma 4부터는 Apache 2.0. 쿠버네티스나 텐서플로우랑 같은 라이선스. 상업적 이용 완전 허용, 수정·재배포 자유, MAU 제한 없음.

스타트업이나 기업 입장에서는 이 한 줄이 사실상 모든 걸 바꿔놨다고 봅니다. Llama 4 커뮤니티 라이선스보다도 자유롭거든요. 솔직히 벤치마크 수치보다 이게 더 큰 뉴스라고 생각해요.

솔직한 단점들#

  • 한국어 어색함: 140개 언어 지원이라고 하는데 실제로 한국어 답변 시키면 가끔 직역체 톤이 나와요. Qwen 3.5 한국어가 아직은 더 자연스러운 느낌. 이건 결국 학습 데이터 문제라 사용자 단에서 어쩔 수 없어요. 영어로 질문하고 결과 받아쓰는 게 빠를 때가 많음
  • 추론 모드 켜면 응답이 느림: <|think|> 시스템 프롬프트 켜면 응답 시간이 확 길어짐. 빠른 답 필요한 챗봇 용도면 좀 답답할 수 있음
  • 31B 풀 버전은 사실상 워크스테이션 전용: 양자화 안 한 31B는 80GB GPU 필요. 일반 게이밍 PC로는 26B MoE 양자화가 한계. 그래도 이 정도면 가성비 미친 편
  • AI 아트 프롬프트 확장 용도로 써보니 검열이 빡빡함: NSFW나 자유로운 스타일 묘사 시키면 거절 자주 함. 이런 용도면 커뮤니티 무수정 파인튜닝 버전 기다리는 게 나을지도. 어차피 한 달이면 누가 풀어줄 거예요
Gemma 4 한계점과 단점 분석 시각화

그래서 깔아야 됨?#

개인적으로 26B MoE는 무조건 깔아두라고 추천합니다. 31B는 하드웨어 받쳐주면 추가로. E2B는 아이폰 Apple Intelligence보다 솔직히 나아서, 모바일 개발자라면 한 번쯤 찔러볼 만함.

DeepSeek이나 Qwen 3.5 안 쓰고 굳이 Gemma 4를 깔아야 하는 이유? Apache 2.0과 멀티모달(이미지+오디오) 성능. 이 두 가지가 핵심입니다. 텍스트만 쓸 거면 Qwen 3.5도 충분히 좋아요. 근데 이미지 같이 처리하거나 상업 배포까지 갈 거면 Gemma 4가 더 나은 선택.

그리고 무엇보다, 코드포스 110 → 2150 같은 점프는 단순 마케팅이 아니라 모델 자체가 진짜로 바뀌었다는 신호임. 다음 Gemma 5 나올 때쯤이면 폐쇄 모델 격차가 또 줄어들 거고요. 이번엔 구글이 진심인 듯.

  • #Gemma4
  • #로컬LLM
  • #오픈소스AI
  • #구글AI
  • #Apache2
  • #AI도구
D

devway

AI 도구로 실제 서비스 운영하면서 손에 쥔 결과만 적는 1인 개발 노트. RTX 3090 + 로컬 LLM 환경에서 직접 굴려보고 글로 옮긴다.

소개전체 글RSS

관련 글

AI/로컬 LLM2026-05-09

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

영어권 개발자 블로그에서 자주 보이는 Ollama·LM Studio·Jan 비교 글들이 결국 같은 결론으로 흘러가는 패턴을 짚고, 그 안에서 빠져 있는 모델 선택·fine-tuning·한국어 품질 문제를 한국 개발자 관점에서 정리. 도구 비교는 30%, 진짜 차이를 만드는 건 모델과 운영 시나리오 70%라는 게 핵심.

  • #로컬LLM
  • #로컬AI
  • #AI도구
  • +6
AI/로컬 LLM2026-05-07

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.

  • #Gemma4
  • #로컬LLM
  • #SpeculativeDecoding
  • +7
AI/로컬 LLM2026-04-13

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과

4월 초 공개된 Gemma 4 31B를 RTX 4090에 올려놓고 일주일 동안 실제 파이썬 작업으로 Claude Opus 4.6, GPT-5.4와 정면으로 붙여봤습니다. 벤치마크 말고 신규 기능 작성, 디버깅, 리팩터링, 테스트에서 어디까지 따라오고 어디서 무너지는지 솔직하게 정리했어요.

  • #Gemma4
  • #LocalLLM
  • #파이썬
  • +3

댓글

(댓글 미설정 — NEXT_PUBLIC_GISCUS_* 환경변수 구성 필요)
소개개인정보처리방침RSSSitemapaickywayconvertprompt
© devway