NVIDIA의 새 omni-modal 모델 Nemotron 3 Nano Omni 발표. 30B 총 파라미터에 3B 액티브, 컨슈머 GPU에 INT4로 올릴 수 있다는 점도 화제지만, 진짜 흥미로운 부분은 모달리티별 best-of-breed 인코더를 얇은 projector로 합치는 reference architecture. 그리고 omni-modal 발표 때마다 반복되는 패턴에 대한 회의적인 메모.
Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.
Alibaba Qwen 팀이 풀어놓은 35B-A3B 로컬 모델을 RTX 3090에 직접 돌려본 후기. 3B 액티브 파라미터로 Sonnet 4.5급 코딩을 뽑아내는 MoE 구조, 110 tok/s 만드는 플래그 셋업, Ollama가 왜 답이 아닌지까지 정리.
클라우드 API 비용 무서워서 로컬 AI 머신 견적 일주일 굴린 후기. RTX 5090부터 중고 3090, M5 Max까지 직접 비교하고, 한국 전기료/아파트 환경까지 고려해서 결국 어떤 조합이 답인지 정리. 가성비 정답은 의외로 단순함.