telexed ~ c / fa481518-1f6radar:40 · otherLIVE
← 피드로
NO.
#fa481518
분야
기타
출처
r/LocalLLaMA
게재
2026-05-21 11:09:47
중요도
★ 4/10 — radar 40

`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접

`ik_llama.cpp` pushes `Qwen3.6 35B A3B` near 110 tok/s on 12GB VRAM

MTP와 CPU 오프로딩 조합으로 컨슈머 GPU에서도 로컬 MoE가 대화형 속도까지 올라온다. 프라이빗 코딩·배치 작업엔 실험 가치 있음.

[ 요점 ]
  1. 같은 IQ4_XS 양자화에서 일반 llama.cpp 평균은 89.76 tok/s, ik_llama.cpp 샘플은 105-110 tok/s대까지 올라감.
  2. 환경은 RTX 4070 Super 12GB, Ryzen 7 9700X, 48GB DDR5. VRAM보다 CPU 오프로딩 최적화가 체감 속도를 좌우한다.
  3. 실행 옵션은 --ctx-size 131072, q8 KV cache, draft-mtp 조합. 긴 컨텍스트 로컬 추론은 여전히 메모리 세팅 의존도가 큼.
  4. 구매 판단용 벤치마크보다는 튜닝 힌트에 가깝다. 커널·양자화·포크 버전 차이로 결과가 크게 흔들릴 수 있음.
원문www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_with_12gb_vram_on_qwen36_35b_a3b_and_ik/원문 보기 →

// related