NO.: #2bccd03b
분야: 에이전트·도구
출처: r/LocalLLaMA
게재: 2026-05-06 09:35:42
중요도: ★ 5/10 — radar 50
원문: www.reddit.com/r/LocalLLaMA/comments/1t57xuu/25x_faster_inference_with_qwen_36_27b_using_mtp/

`llama.cpp` MTP로 `Qwen 3.6 27B` 로컬 코딩 에이전트 활용성이 크게 올라감

`llama.cpp` MTP makes `Qwen 3.6 27B` far more usable for local coding agents

직접 빌드한 llama.cpp에 MTP와 turbo4 KV 캐시를 얹어 속도, 메모리, 컨텍스트를 한 번에 끌어올렸다. 설정은 번거롭지만 로컬 에이전트 코딩이 취미 세팅에서 실사용 후보로 넘어왔다.

[ 요점 ]

--spec-type mtp --spec-draft-n-max 5 적용 시 M2 Max 96GB에서 28 tok/s, 체감상 2.5배 빨라졌다.
turbo4 KV 캐시는 기존 16-bit 대비 KV 메모리를 4분의 1 수준으로 줄여 긴 컨텍스트 유지 비용을 확 낮춘다.
Q5_K_M와 turbo4 조합이면 48GB Apple Silicon에서 262K 컨텍스트를 노릴 수 있어 대형 코드베이스 작업 폭이 넓어진다.
llama-server로 OpenAI·Anthropic 호환 엔드포인트를 바로 열 수 있고, 깨지던 chat template도 함께 손봐 기존 도구 연결 부담이 줄었다.

원문www.reddit.com/r/LocalLLaMA/comments/1t57xuu/25x_faster_inference_with_qwen_36_27b_using_mtp/원문 보기 →

// related

#0001
#0001에이전트·도구 GitHub Changelog어제
`Copilot` 클라우드 에이전트 저장소 설정, REST API로 감사 가능
GitHub adds REST API auditing for `Copilot` cloud agent repo config
60radar
저장소별 에이전트 설정을 UI 클릭 없이 API로 확인할 수 있다. 클라우드 에이전트가 실제 코드에 접근한다면 권한·설정 드리프트 점검에 바로 쓸 만함.
- 새 엔드포인트는 Get Copilot cloud agent configuration for a repository; 현재 public preview 상태다.
- 여러 저장소의 에이전트 설정을 주기적으로 긁어 기본 정책과 다른 값을 찾는 용도에 맞다.
- 코딩 생산성 기능은 아니고 운영 안전장치에 가깝다. 실제 레포에 Copilot 에이전트를 붙였다면 챙길 가치 있음.
출처: github.blog/changelog/2026-05-18-audit-repository-copilo원문 보기 →
FIG-0011:1
60radar
FIG-0011:1
#0002
#0002에이전트·도구 GitHub Changelog어제
`Copilot Spaces API` 정식 출시
`Copilot Spaces API` is now generally available
70radar
Copilot SpacesGitHub Copilot 기능 — 작업별 컨텍스트 공간 관리
이제 앱에서 Spaces를 직접 만들고 수정·삭제할 수 있다. 레포 컨텍스트를 내부 도구나 반복 에이전트 작업에 묶는 자동화에는 바로 쓸 만함.
- API가 Spaces의 생성·조회·수정·삭제를 지원한다. GitHub UI 밖에서도 작업 컨텍스트를 준비할 수 있음.
- 프로젝트·고객·기능 브랜치별 Space 템플릿을 만들어두면 에이전트에게 주는 배경지식을 표준화하기 좋다.
- 최종 사용자 기능보다 자동화 표면 확장에 가깝다. 이미 Copilot Spaces를 쓰는 워크플로우에서 가치가 커짐.
출처: github.blog/changelog/2026-05-18-copilot-spaces-api-now-원문 보기 →
FIG-0021:1
70radar
FIG-0021:1
#0003
#0003에이전트·도구 r/ClaudeAI어제
매일 쓰는 `Claude` 사용 습관 11가지
11 Claude Habits That Compound Over Daily Use
50radar
프롬프트 요령보다 지속 컨텍스트가 더 크게 먹힌다. Projects, CLAUDE.md, 스타일, 스킬, 서브에이전트를 기본 세팅으로 묶으면 바로 효율이 난다.
- 코드베이스 맥락, 스타일가이드, 과거 PR은 Projects에 한 번 넣는다. 반복 붙여넣기는 그대로 컨텍스트 비용이다.
- skeptical senior engineer 같은 커스텀 스타일은 동조형 답변을 줄이고 코드 리뷰 품질을 끌어올린다.
- Claude Code에서는 세션 프롬프트보다 CLAUDE.md 영향이 크다. 80줄 안팎 프로젝트 맥락이 반복 설명을 줄인다.
- 모델은 작업별로 나눈다. 기본은 Sonnet, 설계는 Opus, 티켓·메일·PDF 대량 처리는 Haiku가 맞다.
- 서브에이전트는 테스트 실행, 파일 조사, 문서 요약처럼 병렬로 굴릴 잡일에 맞다. 메인 코딩 흐름을 덜 끊는다.
출처: www.reddit.com/r/ClaudeAI/comments/1tgqnsl/11_claude_thi원문 보기 →
50radar
PHOTO
FIG-0031:1

`llama.cpp` MTP로 `Qwen 3.6 27B` 로컬 코딩 에이전트 활용성이 크게 올라감

// related

`Copilot` 클라우드 에이전트 저장소 설정, REST API로 감사 가능

`Copilot Spaces API` 정식 출시

매일 쓰는 `Claude` 사용 습관 11가지