#0001
`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접
`ik_llama.cpp` pushes `Qwen3.6 35B A3B` near 110 tok/s on 12GB VRAM
40radar
ik_llama.cppllama.cpp 포크 — CPU 오프로딩·양자화 최적화 강화
MTP와 CPU 오프로딩 조합으로 컨슈머 GPU에서도 로컬 MoE가 대화형 속도까지 올라온다. 프라이빗 코딩·배치 작업엔 실험 가치 있음.
- 같은
IQ4_XS양자화에서 일반llama.cpp평균은 89.76 tok/s,ik_llama.cpp샘플은 105-110 tok/s대까지 올라감. - 환경은
RTX 4070 Super 12GB,Ryzen 7 9700X, 48GB DDR5. VRAM보다 CPU 오프로딩 최적화가 체감 속도를 좌우한다. - 실행 옵션은
--ctx-size 131072, q8 KV cache,draft-mtp조합. 긴 컨텍스트 로컬 추론은 여전히 메모리 세팅 의존도가 큼. - 구매 판단용 벤치마크보다는 튜닝 힌트에 가깝다. 커널·양자화·포크 버전 차이로 결과가 크게 흔들릴 수 있음.
출처: www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_wi원문 보기 →