telexed ~ c / c012abef-0dbradar:40 · otherLIVE
← 피드로
NO.
#c012abef
분야
기타
출처
r/LocalLLaMA
게재
2026-05-22 23:29:14
중요도
★ 4/10 — radar 40

`Qwen3.6 27B` pure `Q4_K_M` GGUF, **16GB VRAM**에 적재

`Qwen3.6 27B` pure `Q4_K_M` GGUF fits in **16GB VRAM**

pure 양자화로 모델 전체를 소비자 GPU 메모리에 올리는 선택지가 생겼다. 로컬 에이전트 실험용으론 쓸 만하지만, 품질 손실과 벤치마크 부족은 감수해야 함.

[ 요점 ]
  1. Q4_K_M MTP15.4GB, non-MTP는 15.1GB. 비교 대상 GGUF가 16.5-18GB라 16GB 카드에선 차이가 큼.
  2. MTP는 생성 40 tok/s 대신 프롬프트 처리 195 tok/s. non-MTP는 프롬프트 715 tok/s, 생성 24 tok/s로 반대 성향.
  3. PPL 델타는 MTP +0.1707, non-MTP +0.1051. Unsloth 양자화보다 손실이 커서 품질 우선 작업엔 애매하다.
원문www.reddit.com/r/LocalLLaMA/comments/1tkzk9e/qwen36_27b_pure_quant_40_toks_on_16_gb_vram/원문 보기 →

// related