로컬 LLM
직접 띄운 오픈소스 LLM의 한 달 후기.
8개 글

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유
영어권 개발자 블로그에서 자주 보이는 Ollama·LM Studio·Jan 비교 글들이 결국 같은 결론으로 흘러가는 패턴을 짚고, 그 안에서 빠져 있는 모델 선택·fine-tuning·한국어 품질 문제를 한국 개발자 관점에서 정리. 도구 비교는 30%, 진짜 차이를 만드는 건 모델과 운영 시나리오 70%라는 게 핵심.
- #로컬LLM
- #로컬AI
- #AI도구
- #모델비교
26-05-09 12:23

1비트로 풀정밀도 따라잡았다는 8B 모델 — 후기 글들이 좀 이상함
1.15GB짜리 8B 모델 Bonsai 8B가 풀정밀도와 동급이라는 영문 후기 글들이 한 다스쯤 도는 중인데, 공식 모델 카드 숫자와 대조하면 일부 셀이 어긋나고 빠진 디테일도 보임. Qwen3 베이스라는 점, 실제로는 1.125비트라는 점, 한국어 약점 가능성까지 한 번 짚어봤음.
- #1비트LLM
- #BitNet
- #PrismML
- #Bonsai8B
26-05-07 23:58

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음
Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.
- #Gemma4
- #로컬LLM
- #SpeculativeDecoding
- #추론최적화
26-05-07 00:39

노트북 NPU가 이미지 생성에서 GPU보다 빠른 경우
Intel Panther Lake NPU에서 SDXL Turbo가 같은 머신 GPU보다 빠르게 끝나는 결과를 정리. Proxmox + LXC + OpenVINO 셋업의 까다로운 부분, U-Net만 NPU에 올리고 CLIP / VAE는 CPU에 두는 파이프라인 분리 방식, 그리고 한국에서 따라하기 어려운 한계까지 같이 짚어봄.
- #NPU
- #PantherLake
- #StableDiffusion
- #로컬AI
26-05-06 15:32

토큰 다 써서 오늘 일 못 한다는 사람이 늘고 있음
에이전틱 개발이 일상이 되면서 토큰 한도가 새로운 생산성 병목이 되어가는 중. 클라우드 단일 의존이 만든 redundancy 문제, pay-to-win 경쟁 구조, 로컬 모델이 지금 와있는 자리, 그리고 한국 개발자 입장에서 더 따끔한 부분까지 정리.
- #로컬LLM
- #에이전틱개발
- #ClaudeCode
- #Cursor
26-05-04 17:26

Gemma 4 한 달 굴려봤더니 로컬 LLM이 갑자기 무서워졌음
구글이 4월 초에 풀어버린 Gemma 4를 한 달간 직접 노트북에 깔아 굴려본 솔직한 후기. Apache 2.0으로 풀린 31B와 26B MoE 모델이 폐쇄 프론티어 모델을 어디까지 따라잡는지, 설치하다 폭사한 얘기, 그리고 한국어 처리나 검열 같은 실제 한계까지 정리.
- #Gemma4
- #로컬LLM
- #오픈소스AI
- #구글AI
26-04-28 01:34

Gemma 4 31B 로컬에 깔고 Claude랑 일주일 붙여본 결과
4월 초 공개된 Gemma 4 31B를 RTX 4090에 올려놓고 일주일 동안 실제 파이썬 작업으로 Claude Opus 4.6, GPT-5.4와 정면으로 붙여봤습니다. 벤치마크 말고 신규 기능 작성, 디버깅, 리팩터링, 테스트에서 어디까지 따라오고 어디서 무너지는지 솔직하게 정리했어요.
- #Gemma4
- #LocalLLM
- #파이썬
- #AI코딩
26-04-13 19:42

Qwen 3.5 35B-A3B 깔고 나서 GPT 구독 끊을 뻔함
Alibaba Qwen 팀이 풀어놓은 35B-A3B 로컬 모델을 RTX 3090에 직접 돌려본 후기. 3B 액티브 파라미터로 Sonnet 4.5급 코딩을 뽑아내는 MoE 구조, 110 tok/s 만드는 플래그 셋업, Ollama가 왜 답이 아닌지까지 정리.
- #로컬LLM
- #Qwen
- #AI코딩
- #LocalAI
26-03-26 23:12