devway
프론트엔드 / 백엔드 / 인프라 / AI 개발 기록.
최근 글전체 40개 →

NVIDIA가 옴니 모델 또 풀었는데, 진짜 봐야 할 건 벤치마크가 아님
NVIDIA가 며칠 전 공개한 30B-A3B 옴니 모달 모델 Nemotron 3 Nano Omni를 두고 다들 throughput·리더보드 얘기만 하는데, 진짜 메시지는 비전·오디오·언어 백본을 각각 best-of-breed로 골라 얇은 projector로 묶은 조립법 자체임. 에이전트 만드는 입장에서 이게 왜 중요한지 정리.
- #NVIDIA
- #Nemotron
- #옴니모달
- #MoE
26-05-09 14:01

object detection 비교 튜토리얼인데 사진 한 장으로 끝났음
"Faster R-CNN vs SSD 완벽 비교"를 자처한 PyTorch 튜토리얼을 봤는데, 실제로는 사진 한 장에 두 모델 inference 한 번씩 돌리고 끝났음. 영어권 ML 튜토리얼 매체에서 자주 보이는 SEO-friendly "deep dive" 글의 흔한 패턴, mAP/FPS 없는 비교가 비교가 아닌 이유, 그리고 2026년에 거의 10년 전 모델 비교를 마케팅 키워드로 거는 게 의미 있는지에 대한 회의 메모.
- #objectdetection
- #FasterRCNN
- #SSD
- #PyTorch
26-05-09 13:54

Open-vocabulary 모델이라며, 결국 fine-tuning이 표준이 된 이유
YOLO-World 같은 open-vocabulary 객체 탐지 모델의 셀링 포인트는 zero-shot 검출인데, 정작 영어권 튜토리얼은 절반 이상이 "fine-tuning하는 법"으로 끝나는 패러독스를 정리. 사실 이 둘은 모순이 아니라 워크플로의 단계가 다른 거고, 한국어 라벨을 쓰는 환경에선 fine-tuning이 더 일찍 필요해진다는 추가 변수까지 짚었음.
- #객체탐지
- #YOLOWorld
- #OpenVocabulary
- #FineTuning
26-05-09 13:38

RAG는 죽었다는 글이 많은데 한국어 환경에서는 좀 다른 얘기
영어권에서 자주 도는 "RAG 파이프라인은 죽었다, 에이전트가 검색이다" 흐름을 한국어 환경 관점에서 다시 따져봤음. hybrid retrieval의 BM25는 한국어 형태소 분석을 별도로 붙여야 하고, 한국어 임베딩 모델 선택지는 영어만큼 풍부하지 않으며, MCP 채택은 한국에서 아직 초기 단계라 영어권 thesis를 그대로 옮기기 어려운 변수들이 붙는다는 정리.
- #RAG
- #AI에이전트
- #하이브리드검색
- #DSPy
26-05-09 13:23

Nemotron 3 Nano Omni — 모델 자체보다 인코더 합치는 방식이 더 흥미로움
NVIDIA의 새 omni-modal 모델 Nemotron 3 Nano Omni 발표. 30B 총 파라미터에 3B 액티브, 컨슈머 GPU에 INT4로 올릴 수 있다는 점도 화제지만, 진짜 흥미로운 부분은 모달리티별 best-of-breed 인코더를 얇은 projector로 합치는 reference architecture. 그리고 omni-modal 발표 때마다 반복되는 패턴에 대한 회의적인 메모.
- #NVIDIA
- #Nemotron
- #omni모델
- #MoE
26-05-09 12:27

로컬 LLM 도구 비교 글이 자주 비슷한 결론으로 가는 이유
영어권 개발자 블로그에서 자주 보이는 Ollama·LM Studio·Jan 비교 글들이 결국 같은 결론으로 흘러가는 패턴을 짚고, 그 안에서 빠져 있는 모델 선택·fine-tuning·한국어 품질 문제를 한국 개발자 관점에서 정리. 도구 비교는 30%, 진짜 차이를 만드는 건 모델과 운영 시나리오 70%라는 게 핵심.
- #로컬LLM
- #로컬AI
- #AI도구
- #모델비교
26-05-09 12:23

에이전트 붐을 '유저들의 반란'으로 읽는 프레임
AI 에이전트 열풍이 사실은 테크 업계가 유저들을 다뤄온 방식에 대한 누적된 분노의 표출이라는 해석. 큰 그림은 일리 있는데 디테일에선 동의 안 되는 부분이 꽤 있어서 정리해봤음. 한국 SaaS 맥락도 한 호흡 같이.
- #AI에이전트
- #LLM
- #테크업계비판
- #SaaS
26-05-09 12:07

RT-DETR이 YOLO 자리 가져간다는 얘기, 좀 걸러볼 만한 부분
객체 탐지에서 Transformer 기반 RT-DETR이 YOLO를 대체한다는 주장이 자주 보이는데, NMS-free 구조의 의미와 실제 환경에서 무엇이 바뀌는지 정리. 다만 생태계·엣지 배포·학습 비용 측면에서 YOLO를 통째로 갈아엎기엔 빠진 조각이 많은 이유까지 짚었음.
- #객체탐지
- #컴퓨터비전
- #AI모델
- #모델비교
26-05-09 11:53

Claude Code 옆에 캐시 레이어 붙이겠다는 발상
Claude Code가 한 세션 안에서 같은 파일을 두세 번씩 다시 읽는 문제를 외부 미들웨어로 풀어보겠다는 오픈소스 프로젝트(OpenWolf)가 영어권에서 돌고 있음. 80% 토큰 절감이라는 수치는 어디까지 믿을 수 있는지, 백엔드 입장에서 보면 어떤 부분이 의심스러운지 정리.
- #ClaudeCode
- #AI코딩
- #개발도구
- #LLM
26-05-08 00:08

1비트로 풀정밀도 따라잡았다는 8B 모델 — 후기 글들이 좀 이상함
1.15GB짜리 8B 모델 Bonsai 8B가 풀정밀도와 동급이라는 영문 후기 글들이 한 다스쯤 도는 중인데, 공식 모델 카드 숫자와 대조하면 일부 셀이 어긋나고 빠진 디테일도 보임. Qwen3 베이스라는 점, 실제로는 1.125비트라는 점, 한국어 약점 가능성까지 한 번 짚어봤음.
- #1비트LLM
- #BitNet
- #PrismML
- #Bonsai8B
26-05-07 23:58

Gemma 4 추론 3배 빨라진다는 발표, 한 번 뜯어봤음
Gemma 4 가족 전용 MTP 드래프터로 추론 속도가 최대 3배 빨라진다는 발표가 나왔다. speculative decoding 원리부터 발표 수치를 그대로 받으면 안 되는 이유, 그리고 RTX 3090 같은 컨슈머급 환경에서 이 향상이 실제로 얼마나 의미 있을지까지 따져봤다.
- #Gemma4
- #로컬LLM
- #SpeculativeDecoding
- #추론최적화
26-05-07 00:39

노트북 NPU가 이미지 생성에서 GPU보다 빠른 경우
Intel Panther Lake NPU에서 SDXL Turbo가 같은 머신 GPU보다 빠르게 끝나는 결과를 정리. Proxmox + LXC + OpenVINO 셋업의 까다로운 부분, U-Net만 NPU에 올리고 CLIP / VAE는 CPU에 두는 파이프라인 분리 방식, 그리고 한국에서 따라하기 어려운 한계까지 같이 짚어봄.
- #NPU
- #PantherLake
- #StableDiffusion
- #로컬AI
26-05-06 15:32