telexed ~ c / 815c79df-de8radar:50 · otherLIVE
← 피드로
NO.
#815c79df
분야
기타
출처
r/LocalLLaMA
게재
2026-05-17 10:24:36
중요도
★ 5/10 — radar 50

`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원

`llama.cpp` fork enables quantized KV cache with tensor split

텐서 병렬을 쓰면서 q8_0 KV 캐시를 유지해 듀얼 GPU 로컬 추론 병목을 줄인다. 아직 포크라 운영용보다 실험용으로 바로 검증할 만함.

[ 요점 ]
  1. Qwen3.5 27B Q4_K_M 생성 성능은 -sm tensor 적용 시 30.05 tok/s, 미적용 21.22 tok/s로 측정됐다.
  2. 핵심은 -ctk q8_0 -ctv q8_0와 텐서 분할을 같이 쓰는 것. 기존 비양자화 KV 캐시 제약을 우회한다.
  3. 실사용 체감은 3060 12GB + 4070 Super 12GB 조합에서 약 25 tok/s → 40 tok/s 수준으로 제시됐다.
  4. MoE 모델은 현재 -sm tensor 이슈가 있어 제외. Qwen 27B/9B 같은 dense 모델 테스트가 현실적이다.
원문www.reddit.com/r/LocalLLaMA/comments/1tflngz/dual_gpu_llamacpp_speedup/원문 보기 →

// related