`Qwen3.6-35B-A3B`, `Terminal-Bench 2.0`에서 24.6% 기록

`Qwen3.6-35B-A3B` reaches **24.6%** on `Terminal-Bench 2.0`

작은 오픈 모델 조합이 하드 터미널 벤치에서 더 큰 에이전트 구성을 일부 앞섰다. 로컬 코딩 에이전트 실험감은 생겼지만, 아직은 벤치마크 신호에 가깝다.

[ 요점 ]

little-coder x Qwen3.6-35B-A3B가 24.6% ±3.2를 기록해 Gemini CLI의 Gemini 2.5 Pro 19.6%를 넘었다.
Terminus 2의 Qwen3-Coder-480B 23.9%도 근소하게 앞섰다. 모델 크기보다 스캐폴드 설계가 결과를 뒤집을 수 있음.
Qwen3.5-9B는 9.2%. sub-10B 로컬 모델도 어려운 에이전트 벤치에서 측정 가능한 성능 구간에 들어왔다.
실서비스 대체 근거로 쓰기엔 이르다. API 비용 절감 후보로 보되, 본인 코드베이스 작업에서 재검증해야 함.

원문www.reddit.com/r/LocalLLaMA/comments/1temio0/qwen3635ba3b_and_9b_are_officially_on_the_public/원문 보기 →

// related

#0001
#0001에이전트·도구 GitHub Changelog어제
`Copilot` 클라우드 에이전트 저장소 설정, REST API로 감사 가능
GitHub adds REST API auditing for `Copilot` cloud agent repo config
60radar
저장소별 에이전트 설정을 UI 클릭 없이 API로 확인할 수 있다. 클라우드 에이전트가 실제 코드에 접근한다면 권한·설정 드리프트 점검에 바로 쓸 만함.
- 새 엔드포인트는 Get Copilot cloud agent configuration for a repository; 현재 public preview 상태다.
- 여러 저장소의 에이전트 설정을 주기적으로 긁어 기본 정책과 다른 값을 찾는 용도에 맞다.
- 코딩 생산성 기능은 아니고 운영 안전장치에 가깝다. 실제 레포에 Copilot 에이전트를 붙였다면 챙길 가치 있음.
출처: github.blog/changelog/2026-05-18-audit-repository-copilo원문 보기 →
FIG-0011:1
60radar
FIG-0011:1
#0002
#0002에이전트·도구 GitHub Changelog어제
`Copilot Spaces API` 정식 출시
`Copilot Spaces API` is now generally available
70radar
Copilot SpacesGitHub Copilot 기능 — 작업별 컨텍스트 공간 관리
이제 앱에서 Spaces를 직접 만들고 수정·삭제할 수 있다. 레포 컨텍스트를 내부 도구나 반복 에이전트 작업에 묶는 자동화에는 바로 쓸 만함.
- API가 Spaces의 생성·조회·수정·삭제를 지원한다. GitHub UI 밖에서도 작업 컨텍스트를 준비할 수 있음.
- 프로젝트·고객·기능 브랜치별 Space 템플릿을 만들어두면 에이전트에게 주는 배경지식을 표준화하기 좋다.
- 최종 사용자 기능보다 자동화 표면 확장에 가깝다. 이미 Copilot Spaces를 쓰는 워크플로우에서 가치가 커짐.
출처: github.blog/changelog/2026-05-18-copilot-spaces-api-now-원문 보기 →
FIG-0021:1
70radar
FIG-0021:1
#0003
#0003에이전트·도구 r/ClaudeAI어제
매일 쓰는 `Claude` 사용 습관 11가지
11 Claude Habits That Compound Over Daily Use
50radar
프롬프트 요령보다 지속 컨텍스트가 더 크게 먹힌다. Projects, CLAUDE.md, 스타일, 스킬, 서브에이전트를 기본 세팅으로 묶으면 바로 효율이 난다.
- 코드베이스 맥락, 스타일가이드, 과거 PR은 Projects에 한 번 넣는다. 반복 붙여넣기는 그대로 컨텍스트 비용이다.
- skeptical senior engineer 같은 커스텀 스타일은 동조형 답변을 줄이고 코드 리뷰 품질을 끌어올린다.
- Claude Code에서는 세션 프롬프트보다 CLAUDE.md 영향이 크다. 80줄 안팎 프로젝트 맥락이 반복 설명을 줄인다.
- 모델은 작업별로 나눈다. 기본은 Sonnet, 설계는 Opus, 티켓·메일·PDF 대량 처리는 Haiku가 맞다.
- 서브에이전트는 테스트 실행, 파일 조사, 문서 요약처럼 병렬로 굴릴 잡일에 맞다. 메인 코딩 흐름을 덜 끊는다.
출처: www.reddit.com/r/ClaudeAI/comments/1tgqnsl/11_claude_thi원문 보기 →
50radar
PHOTO
FIG-0031:1

`Qwen3.6-35B-A3B`, `Terminal-Bench 2.0`에서 **24.6%** 기록

// related

`Copilot` 클라우드 에이전트 저장소 설정, REST API로 감사 가능

`Copilot Spaces API` 정식 출시

매일 쓰는 `Claude` 사용 습관 11가지

`Qwen3.6-35B-A3B`, `Terminal-Bench 2.0`에서 24.6% 기록