Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음
Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.
태그
이 태그가 달린 글 모음. 최신순.
Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.
구글이 4월 초에 풀어버린 Gemma 4를 한 달간 직접 노트북에 깔아 굴려본 솔직한 후기. Apache 2.0으로 풀린 31B와 26B MoE 모델이 폐쇄 프론티어 모델을 어디까지 따라잡는지, 설치하다 폭사한 얘기, 그리고 한국어 처리나 검열 같은 실제 한계까지 정리.
4월 초 공개된 Gemma 4 31B를 RTX 4090에 올려놓고 일주일 동안 실제 파이썬 작업으로 Claude Opus 4.6, GPT-5.4와 정면으로 붙여봤습니다. 벤치마크 말고 신규 기능 작성, 디버깅, 리팩터링, 테스트에서 어디까지 따라오고 어디서 무너지는지 솔직하게 정리했어요.