Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음
구글이 4월 초에 풀어버린 Gemma 4를 한 달간 직접 노트북에 깔아 굴려본 솔직한 후기. Apache 2.0으로 풀린 31B와 26B MoE 모델이 폐쇄 프론티어 모델을 어디까지 따라잡는지, 설치하다 폭사한 얘기, 그리고 한국어 처리나 검열 같은 실제 한계까지 정리.
원래 Gemma 시리즈는 거의 안 썼어요. 정확히는 Gemma 2 잠깐 깔아본 뒤 "이거 굳이 왜?" 하고 덮어둔 게 작년 말. 캐글에서 한 번 시연 돌리고 끝나는 그런 느낌이었거든요. 중국 쪽 DeepSeek이나 Qwen 3.5가 워낙 강력해서 Gemma는 그냥 구글이 흉내만 낸 모델로 분류해 두고 잊고 있었음.
근데 4월 2일에 Gemma 4 발표되고, 허깅페이스 CTO가 불 이모지 박아가며 "BREAKING NEWS"라고 올린 거 보고 한 번 더 속아보자 싶어서 깔았는데. 이번엔 진짜로 다르더라고요.
일단 깔다가 한 번 폭사함
처음엔 31B 덴스 모델을 32GB RAM 노트북에 욱여넣으려다가 OOM. 솔직히 욕심 부린 거. 결국 26B MoE 양자화 버전(Q4_K_M)으로 갈아탔는데 이게 신의 한 수였어요. 26B인데 추론 시 활성화되는 파라미터는 3.8B 뿐이라, 4B 모델 속도로 26B급 지능이 나옴. 좀 사기.
brew upgrade llama.cpp
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
이거 한 줄이면 끝. GGUF 받는 데 30분 정도 걸렸는데 그 사이에 라면 끓여 먹음. 받고 나서 첫 응답 뜨는 순간 좀 소름 돋았어요. 클로드급 답변이 내 노트북에서 나오는 거니까.
라인업이 좀 영리함
모든 사이즈를 다 풀어버린 게 핵심.
- E2B / E4B: 진짜로 폰에서 돌아가는 사이즈. PLE라고 레이어마다 작은 임베딩 테이블 붙여서 "유효 파라미터"만 줄이는 트릭이 들어감
- 26B MoE: 전문가 128명 중 8명만 골라서 작동. 활성 파라미터 3.8B
- 31B 덴스: 플래그십. 80GB H100 한 장이면 양자화 안 해도 돌아감
작은 모델들은 텍스트, 이미지, 비디오 + 오디오 입력까지 받음. 큰 모델은 오디오 빼고 다 됨. 컨텍스트 윈도우는 최대 256K까지. 코드베이스 통째로 던져도 뭔가 쓸 만한 답이 나오는 수준이에요.
벤치마크가 좀 미쳐있음
이게 진짜 충격이었는데.
AIME 2026 (수학 경시) 점수가 89.2%. Gemma 3가 20.8%였음. 한 세대 만에 4배 점프.
코드포스 ELO는 더 미쳤어요. Gemma 3 110점 → Gemma 4 31B 2150점. 오타 아님. 110에서 2150. 솔직히 이런 점프는 처음 봅니다.
LiveCodeBench v6: 29.1% → 80.0%. 거의 3배. GPQA Diamond는 84.3% 찍는데, 이거 박사급 과학 문제고 인간 전문가 평균이 65% 정도라고 알려져 있는 벤치마크임.
26B MoE도 GPQA Diamond에서 82.3% 찍음. 활성 파라미터 3.8B로. 이게 가장 이상한 부분이에요. 4B 모델 속도로 이런 점수가 어떻게 나오는지 솔직히 좀 의심스러울 정도.
Claude나 GPT랑 비교하면 어떻냐면
까놓고 얘기하면, Claude Opus 4.6이나 GPT-5.2한테는 졌어요. GPQA Diamond 기준으로 7~8점 차이. 누가 "Gemma 4가 Claude보다 낫다"라고 하면 그건 거짓말입니다.
근데 비교 자체가 잘못된 거기도 함. Claude Opus는 데이터센터에서 돌아가고 Gemma 4 31B는 내 노트북에서 돌아감. API 비용 0원. 데이터 외부로 안 나감. 벤더 종속 없음. 이 차이가 7~8점 벤치마크보다 훨씬 큰 가치인 경우가 많아요. 적어도 저한테는 그래요.
잠깐 딴 얘기
이거 깔아 놓고 모델 응답 비교한답시고 옆에서 라떼 식어버린 적이 두 번. 어쨌든.
Apache 2.0 - 사실 이게 진짜 큰 변화
이전 Gemma는 구글 자체 라이선스였어요. 허용적이긴 했는데 진짜 오픈소스는 아니었음. 사용 제한, 콘텐츠 정책 같은 게 있었거든요. 이거 때문에 기업 도입이 자주 막혔고요.
근데 Gemma 4부터는 Apache 2.0. 쿠버네티스나 텐서플로우랑 같은 라이선스. 상업적 이용 완전 허용, 수정·재배포 자유, MAU 제한 없음.
스타트업이나 기업 입장에서는 이 한 줄이 사실상 모든 걸 바꿔놨다고 봅니다. Llama 4 커뮤니티 라이선스보다도 자유롭거든요. 솔직히 벤치마크 수치보다 이게 더 큰 뉴스라고 생각해요.
솔직한 단점들
- 한국어 어색함: 140개 언어 지원이라고 하는데 실제로 한국어 답변 시키면 가끔 직역체 톤이 나와요. Qwen 3.5 한국어가 아직은 더 자연스러운 느낌. 이건 결국 학습 데이터 문제라 사용자 단에서 어쩔 수 없어요. 영어로 질문하고 결과 받아쓰는 게 빠를 때가 많음
- 추론 모드 켜면 응답이 느림:
<|think|>시스템 프롬프트 켜면 응답 시간이 확 길어짐. 빠른 답 필요한 챗봇 용도면 좀 답답할 수 있음 - 31B 풀 버전은 사실상 워크스테이션 전용: 양자화 안 한 31B는 80GB GPU 필요. 일반 게이밍 PC로는 26B MoE 양자화가 한계. 그래도 이 정도면 가성비 미친 편
- AI 아트 프롬프트 확장 용도로 써보니 검열이 빡빡함: NSFW나 자유로운 스타일 묘사 시키면 거절 자주 함. 이런 용도면 커뮤니티 무수정 파인튜닝 버전 기다리는 게 나을지도. 어차피 한 달이면 누가 풀어줄 거예요
그래서 깔아야 됨?
개인적으로 26B MoE는 무조건 깔아두라고 추천합니다. 31B는 하드웨어 받쳐주면 추가로. E2B는 아이폰 Apple Intelligence보다 솔직히 나아서, 모바일 개발자라면 한 번쯤 찔러볼 만함.
DeepSeek이나 Qwen 3.5 안 쓰고 굳이 Gemma 4를 깔아야 하는 이유? Apache 2.0과 멀티모달(이미지+오디오) 성능. 이 두 가지가 핵심입니다. 텍스트만 쓸 거면 Qwen 3.5도 충분히 좋아요. 근데 이미지 같이 처리하거나 상업 배포까지 갈 거면 Gemma 4가 더 나은 선택.
그리고 무엇보다, 코드포스 110 → 2150 같은 점프는 단순 마케팅이 아니라 모델 자체가 진짜로 바뀌었다는 신호임. 다음 Gemma 5 나올 때쯤이면 폐쇄 모델 격차가 또 줄어들 거고요. 이번엔 구글이 진심인 듯.
댓글
NEXT_PUBLIC_GISCUS_*환경변수 구성 필요)