#0412
`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원
`llama.cpp` fork enables quantized KV cache with tensor split
50radar
llama.cpp로컬 LLM 추론 엔진 — GGUF·CUDA 백엔드 지원
텐서 병렬을 쓰면서 q8_0 KV 캐시를 유지해 듀얼 GPU 로컬 추론 병목을 줄인다. 아직 포크라 운영용보다 실험용으로 바로 검증할 만함.
Qwen3.5 27B Q4_K_M생성 성능은-sm tensor적용 시 30.05 tok/s, 미적용 21.22 tok/s로 측정됐다.- 핵심은
-ctk q8_0 -ctv q8_0와 텐서 분할을 같이 쓰는 것. 기존 비양자화 KV 캐시 제약을 우회한다. - 실사용 체감은
3060 12GB + 4070 Super 12GB조합에서 약 25 tok/s → 40 tok/s 수준으로 제시됐다. MoE모델은 현재-sm tensor이슈가 있어 제외.Qwen27B/9B 같은 dense 모델 테스트가 현실적이다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tflngz/dual_gpu_ll원문 보기 →