telexed ~ c / 2bccd03b-09cradar:50 · agent_toolLIVE
← 피드로
NO.
#2bccd03b
분야
에이전트·도구
출처
r/LocalLLaMA
게재
2026-05-06 09:35:42
중요도
★ 5/10 — radar 50

`llama.cpp` MTP로 `Qwen 3.6 27B` 로컬 코딩 에이전트 활용성이 크게 올라감

`llama.cpp` MTP makes `Qwen 3.6 27B` far more usable for local coding agents

직접 빌드한 llama.cppMTPturbo4 KV 캐시를 얹어 속도, 메모리, 컨텍스트를 한 번에 끌어올렸다. 설정은 번거롭지만 로컬 에이전트 코딩이 취미 세팅에서 실사용 후보로 넘어왔다.

[ 요점 ]
  1. --spec-type mtp --spec-draft-n-max 5 적용 시 M2 Max 96GB에서 28 tok/s, 체감상 2.5배 빨라졌다.
  2. turbo4 KV 캐시는 기존 16-bit 대비 KV 메모리를 4분의 1 수준으로 줄여 긴 컨텍스트 유지 비용을 확 낮춘다.
  3. Q5_K_Mturbo4 조합이면 48GB Apple Silicon에서 262K 컨텍스트를 노릴 수 있어 대형 코드베이스 작업 폭이 넓어진다.
  4. llama-server로 OpenAI·Anthropic 호환 엔드포인트를 바로 열 수 있고, 깨지던 chat template도 함께 손봐 기존 도구 연결 부담이 줄었다.
원문www.reddit.com/r/LocalLLaMA/comments/1t57xuu/25x_faster_inference_with_qwen_36_27b_using_mtp/원문 보기 →

// related