로컬 LLM · 2026-04-28 · 9분

Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음

구글이 4월 초에 풀어버린 Gemma 4를 한 달간 직접 노트북에 깔아 굴려본 솔직한 후기. Apache 2.0으로 풀린 31B와 26B MoE 모델이 폐쇄 프론티어 모델을 어디까지 따라잡는지, 설치하다 폭사한 얘기, 그리고 한국어 처리나 검열 같은 실제 한계까지 정리.

원래 Gemma 시리즈는 거의 안 썼어요. 정확히는 Gemma 2 잠깐 깔아본 뒤 "이거 굳이 왜?" 하고 덮어둔 게 작년 말. 캐글에서 한 번 시연 돌리고 끝나는 그런 느낌이었거든요. 중국 쪽 DeepSeek이나 Qwen 3.5가 워낙 강력해서 Gemma는 그냥 구글이 흉내만 낸 모델로 분류해 두고 잊고 있었음.

근데 4월 2일에 Gemma 4 발표되고, 허깅페이스 CTO가 불 이모지 박아가며 "BREAKING NEWS"라고 올린 거 보고 한 번 더 속아보자 싶어서 깔았는데. 이번엔 진짜로 다르더라고요.

일단 깔다가 한 번 폭사함

처음엔 31B 덴스 모델을 32GB RAM 노트북에 욱여넣으려다가 OOM. 솔직히 욕심 부린 거. 결국 26B MoE 양자화 버전(Q4_K_M)으로 갈아탔는데 이게 신의 한 수였어요. 26B인데 추론 시 활성화되는 파라미터는 3.8B 뿐이라, 4B 모델 속도로 26B급 지능이 나옴. 좀 사기.

brew upgrade llama.cpp
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M

이거 한 줄이면 끝. GGUF 받는 데 30분 정도 걸렸는데 그 사이에 라면 끓여 먹음. 받고 나서 첫 응답 뜨는 순간 좀 소름 돋았어요. 클로드급 답변이 내 노트북에서 나오는 거니까.

라인업이 좀 영리함

모든 사이즈를 다 풀어버린 게 핵심.

E2B / E4B: 진짜로 폰에서 돌아가는 사이즈. PLE라고 레이어마다 작은 임베딩 테이블 붙여서 "유효 파라미터"만 줄이는 트릭이 들어감
26B MoE: 전문가 128명 중 8명만 골라서 작동. 활성 파라미터 3.8B
31B 덴스: 플래그십. 80GB H100 한 장이면 양자화 안 해도 돌아감

작은 모델들은 텍스트, 이미지, 비디오 + 오디오 입력까지 받음. 큰 모델은 오디오 빼고 다 됨. 컨텍스트 윈도우는 최대 256K까지. 코드베이스 통째로 던져도 뭔가 쓸 만한 답이 나오는 수준이에요.

벤치마크가 좀 미쳐있음

이게 진짜 충격이었는데.

AIME 2026 (수학 경시) 점수가 89.2%. Gemma 3가 20.8%였음. 한 세대 만에 4배 점프.

코드포스 ELO는 더 미쳤어요. Gemma 3 110점 → Gemma 4 31B 2150점. 오타 아님. 110에서 2150. 솔직히 이런 점프는 처음 봅니다.

LiveCodeBench v6: 29.1% → 80.0%. 거의 3배. GPQA Diamond는 84.3% 찍는데, 이거 박사급 과학 문제고 인간 전문가 평균이 65% 정도라고 알려져 있는 벤치마크임.

26B MoE도 GPQA Diamond에서 82.3% 찍음. 활성 파라미터 3.8B로. 이게 가장 이상한 부분이에요. 4B 모델 속도로 이런 점수가 어떻게 나오는지 솔직히 좀 의심스러울 정도.

Claude나 GPT랑 비교하면 어떻냐면

까놓고 얘기하면, Claude Opus 4.6이나 GPT-5.2한테는 졌어요. GPQA Diamond 기준으로 7~8점 차이. 누가 "Gemma 4가 Claude보다 낫다"라고 하면 그건 거짓말입니다.

근데 비교 자체가 잘못된 거기도 함. Claude Opus는 데이터센터에서 돌아가고 Gemma 4 31B는 내 노트북에서 돌아감. API 비용 0원. 데이터 외부로 안 나감. 벤더 종속 없음. 이 차이가 7~8점 벤치마크보다 훨씬 큰 가치인 경우가 많아요. 적어도 저한테는 그래요.

잠깐 딴 얘기

이거 깔아 놓고 모델 응답 비교한답시고 옆에서 라떼 식어버린 적이 두 번. 어쨌든.

Apache 2.0 - 사실 이게 진짜 큰 변화

이전 Gemma는 구글 자체 라이선스였어요. 허용적이긴 했는데 진짜 오픈소스는 아니었음. 사용 제한, 콘텐츠 정책 같은 게 있었거든요. 이거 때문에 기업 도입이 자주 막혔고요.

근데 Gemma 4부터는 Apache 2.0. 쿠버네티스나 텐서플로우랑 같은 라이선스. 상업적 이용 완전 허용, 수정·재배포 자유, MAU 제한 없음.

스타트업이나 기업 입장에서는 이 한 줄이 사실상 모든 걸 바꿔놨다고 봅니다. Llama 4 커뮤니티 라이선스보다도 자유롭거든요. 솔직히 벤치마크 수치보다 이게 더 큰 뉴스라고 생각해요.

솔직한 단점들

한국어 어색함: 140개 언어 지원이라고 하는데 실제로 한국어 답변 시키면 가끔 직역체 톤이 나와요. Qwen 3.5 한국어가 아직은 더 자연스러운 느낌. 이건 결국 학습 데이터 문제라 사용자 단에서 어쩔 수 없어요. 영어로 질문하고 결과 받아쓰는 게 빠를 때가 많음
추론 모드 켜면 응답이 느림: <|think|> 시스템 프롬프트 켜면 응답 시간이 확 길어짐. 빠른 답 필요한 챗봇 용도면 좀 답답할 수 있음
31B 풀 버전은 사실상 워크스테이션 전용: 양자화 안 한 31B는 80GB GPU 필요. 일반 게이밍 PC로는 26B MoE 양자화가 한계. 그래도 이 정도면 가성비 미친 편
AI 아트 프롬프트 확장 용도로 써보니 검열이 빡빡함: NSFW나 자유로운 스타일 묘사 시키면 거절 자주 함. 이런 용도면 커뮤니티 무수정 파인튜닝 버전 기다리는 게 나을지도. 어차피 한 달이면 누가 풀어줄 거예요

그래서 깔아야 됨?

개인적으로 26B MoE는 무조건 깔아두라고 추천합니다. 31B는 하드웨어 받쳐주면 추가로. E2B는 아이폰 Apple Intelligence보다 솔직히 나아서, 모바일 개발자라면 한 번쯤 찔러볼 만함.

DeepSeek이나 Qwen 3.5 안 쓰고 굳이 Gemma 4를 깔아야 하는 이유? Apache 2.0과 멀티모달(이미지+오디오) 성능. 이 두 가지가 핵심입니다. 텍스트만 쓸 거면 Qwen 3.5도 충분히 좋아요. 근데 이미지 같이 처리하거나 상업 배포까지 갈 거면 Gemma 4가 더 나은 선택.

그리고 무엇보다, 코드포스 110 → 2150 같은 점프는 단순 마케팅이 아니라 모델 자체가 진짜로 바뀌었다는 신호임. 다음 Gemma 5 나올 때쯤이면 폐쇄 모델 격차가 또 줄어들 거고요. 이번엔 구글이 진심인 듯.

AI로컬 LLM2026-05-09

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

영어권 개발자 블로그에서 자주 보이는 Ollama·LM Studio·Jan 비교 글들이 결국 같은 결론으로 흘러가는 패턴을 짚고, 그 안에서 빠져 있는 모델 선택·fine-tuning·한국어 품질 문제를 한국 개발자 관점에서 정리. 도구 비교는 30%, 진짜 차이를 만드는 건 모델과 운영 시나리오 70%라는 게 핵심.

AI로컬 LLM2026-05-07

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.

AI로컬 LLM2026-04-13

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과

4월 초 공개된 Gemma 4 31B를 RTX 4090에 올려놓고 일주일 동안 실제 파이썬 작업으로 Claude Opus 4.6, GPT-5.4와 정면으로 붙여봤습니다. 벤치마크 말고 신규 기능 작성, 디버깅, 리팩터링, 테스트에서 어디까지 따라오고 어디서 무너지는지 솔직하게 정리했어요.

(댓글 미설정 — NEXT_PUBLIC_GISCUS_* 환경변수 구성 필요)

로컬 LLM · 2026-04-28 · 9분

Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음

일단 깔다가 한 번 폭사함

brew upgrade llama.cpp
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M

라인업이 좀 영리함

모든 사이즈를 다 풀어버린 게 핵심.

E2B / E4B: 진짜로 폰에서 돌아가는 사이즈. PLE라고 레이어마다 작은 임베딩 테이블 붙여서 "유효 파라미터"만 줄이는 트릭이 들어감
26B MoE: 전문가 128명 중 8명만 골라서 작동. 활성 파라미터 3.8B
31B 덴스: 플래그십. 80GB H100 한 장이면 양자화 안 해도 돌아감

벤치마크가 좀 미쳐있음

이게 진짜 충격이었는데.

AIME 2026 (수학 경시) 점수가 89.2%. Gemma 3가 20.8%였음. 한 세대 만에 4배 점프.

코드포스 ELO는 더 미쳤어요. Gemma 3 110점 → Gemma 4 31B 2150점. 오타 아님. 110에서 2150. 솔직히 이런 점프는 처음 봅니다.

LiveCodeBench v6: 29.1% → 80.0%. 거의 3배. GPQA Diamond는 84.3% 찍는데, 이거 박사급 과학 문제고 인간 전문가 평균이 65% 정도라고 알려져 있는 벤치마크임.

Claude나 GPT랑 비교하면 어떻냐면

까놓고 얘기하면, Claude Opus 4.6이나 GPT-5.2한테는 졌어요. GPQA Diamond 기준으로 7~8점 차이. 누가 "Gemma 4가 Claude보다 낫다"라고 하면 그건 거짓말입니다.

잠깐 딴 얘기

이거 깔아 놓고 모델 응답 비교한답시고 옆에서 라떼 식어버린 적이 두 번. 어쨌든.

Apache 2.0 - 사실 이게 진짜 큰 변화

근데 Gemma 4부터는 Apache 2.0. 쿠버네티스나 텐서플로우랑 같은 라이선스. 상업적 이용 완전 허용, 수정·재배포 자유, MAU 제한 없음.

솔직한 단점들

한국어 어색함: 140개 언어 지원이라고 하는데 실제로 한국어 답변 시키면 가끔 직역체 톤이 나와요. Qwen 3.5 한국어가 아직은 더 자연스러운 느낌. 이건 결국 학습 데이터 문제라 사용자 단에서 어쩔 수 없어요. 영어로 질문하고 결과 받아쓰는 게 빠를 때가 많음
추론 모드 켜면 응답이 느림: <|think|> 시스템 프롬프트 켜면 응답 시간이 확 길어짐. 빠른 답 필요한 챗봇 용도면 좀 답답할 수 있음
31B 풀 버전은 사실상 워크스테이션 전용: 양자화 안 한 31B는 80GB GPU 필요. 일반 게이밍 PC로는 26B MoE 양자화가 한계. 그래도 이 정도면 가성비 미친 편
AI 아트 프롬프트 확장 용도로 써보니 검열이 빡빡함: NSFW나 자유로운 스타일 묘사 시키면 거절 자주 함. 이런 용도면 커뮤니티 무수정 파인튜닝 버전 기다리는 게 나을지도. 어차피 한 달이면 누가 풀어줄 거예요

그래서 깔아야 됨?

AI로컬 LLM2026-05-09

Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음

일단 깔다가 한 번 폭사함

라인업이 좀 영리함

벤치마크가 좀 미쳐있음

Claude나 GPT랑 비교하면 어떻냐면

잠깐 딴 얘기

Apache 2.0 - 사실 이게 진짜 큰 변화

솔직한 단점들

그래서 깔아야 됨?

관련 글

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과

댓글

Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음

일단 깔다가 한 번 폭사함

라인업이 좀 영리함

벤치마크가 좀 미쳐있음

Claude나 GPT랑 비교하면 어떻냐면

잠깐 딴 얘기

Apache 2.0 - 사실 이게 진짜 큰 변화

솔직한 단점들

그래서 깔아야 됨?

관련 글

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과

댓글

일단 깔다가 한 번 폭사함#

라인업이 좀 영리함#

벤치마크가 좀 미쳐있음#

Claude나 GPT랑 비교하면 어떻냐면#

잠깐 딴 얘기#

Apache 2.0 - 사실 이게 진짜 큰 변화#

솔직한 단점들#

그래서 깔아야 됨?#

관련 글

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과

댓글

일단 깔다가 한 번 폭사함#

라인업이 좀 영리함#

벤치마크가 좀 미쳐있음#

Claude나 GPT랑 비교하면 어떻냐면#

잠깐 딴 얘기#

Apache 2.0 - 사실 이게 진짜 큰 변화#

솔직한 단점들#

그래서 깔아야 됨?#

관련 글

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과

댓글

일단 깔다가 한 번 폭사함

라인업이 좀 영리함

벤치마크가 좀 미쳐있음

Claude나 GPT랑 비교하면 어떻냐면

잠깐 딴 얘기

Apache 2.0 - 사실 이게 진짜 큰 변화

솔직한 단점들

그래서 깔아야 됨?

일단 깔다가 한 번 폭사함

라인업이 좀 영리함

벤치마크가 좀 미쳐있음

Claude나 GPT랑 비교하면 어떻냐면

잠깐 딴 얘기

Apache 2.0 - 사실 이게 진짜 큰 변화

솔직한 단점들

그래서 깔아야 됨?