`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 87/100 주장

`SmallCode` hits 87/100 coding-agent tasks with an active 4B model

작은 로컬 모델의 약점을 모델 교체가 아니라 툴 설계로 막는다. 벤치마크는 자체 수치지만, 에이전트 하네스 패턴은 바로 재사용할 만함.

[ 요점 ]

복합 툴이 파일 탐색→읽기→수정→검증을 한 번에 묶는다. 작은 모델이 3회 이상 툴 호출에서 흐트러지는 문제를 줄이는 방식.
코드 작성 직후 컴파일·린트를 돌리고 오류를 다시 넣는다. 첫 시도 정확도보다 실패 복구 루프가 성능을 만든다.
같은 실패가 반복되면 큰 작업을 더 잘게 쪼갠다. “200줄 파일 수정”을 “45번째 줄 수정”으로 낮추는 식.
OpenAI·Claude 키가 있으면 막힌 작업만 클라우드 모델로 넘긴다. 로컬 비용 절감과 완주율 사이의 타협안.

원문www.reddit.com/r/LocalLLaMA/comments/1tgecrq/i_built_a_coding_agent_that_gets_87_on_benchmarks/원문 보기 →

// related

#0001
#0001에이전트·도구 GitHub Changelog24시간 전
`Copilot` 클라우드 에이전트 저장소 설정, REST API로 감사 가능
GitHub adds REST API auditing for `Copilot` cloud agent repo config
60radar
저장소별 에이전트 설정을 UI 클릭 없이 API로 확인할 수 있다. 클라우드 에이전트가 실제 코드에 접근한다면 권한·설정 드리프트 점검에 바로 쓸 만함.
- 새 엔드포인트는 Get Copilot cloud agent configuration for a repository; 현재 public preview 상태다.
- 여러 저장소의 에이전트 설정을 주기적으로 긁어 기본 정책과 다른 값을 찾는 용도에 맞다.
- 코딩 생산성 기능은 아니고 운영 안전장치에 가깝다. 실제 레포에 Copilot 에이전트를 붙였다면 챙길 가치 있음.
출처: github.blog/changelog/2026-05-18-audit-repository-copilo원문 보기 →
FIG-0011:1
60radar
FIG-0011:1
#0002
#0002에이전트·도구 GitHub Changelog어제
`Copilot Spaces API` 정식 출시
`Copilot Spaces API` is now generally available
70radar
Copilot SpacesGitHub Copilot 기능 — 작업별 컨텍스트 공간 관리
이제 앱에서 Spaces를 직접 만들고 수정·삭제할 수 있다. 레포 컨텍스트를 내부 도구나 반복 에이전트 작업에 묶는 자동화에는 바로 쓸 만함.
- API가 Spaces의 생성·조회·수정·삭제를 지원한다. GitHub UI 밖에서도 작업 컨텍스트를 준비할 수 있음.
- 프로젝트·고객·기능 브랜치별 Space 템플릿을 만들어두면 에이전트에게 주는 배경지식을 표준화하기 좋다.
- 최종 사용자 기능보다 자동화 표면 확장에 가깝다. 이미 Copilot Spaces를 쓰는 워크플로우에서 가치가 커짐.
출처: github.blog/changelog/2026-05-18-copilot-spaces-api-now-원문 보기 →
FIG-0021:1
70radar
FIG-0021:1
#0003
#0003에이전트·도구 r/ClaudeAI어제
매일 쓰는 `Claude` 사용 습관 11가지
11 Claude Habits That Compound Over Daily Use
50radar
프롬프트 요령보다 지속 컨텍스트가 더 크게 먹힌다. Projects, CLAUDE.md, 스타일, 스킬, 서브에이전트를 기본 세팅으로 묶으면 바로 효율이 난다.
- 코드베이스 맥락, 스타일가이드, 과거 PR은 Projects에 한 번 넣는다. 반복 붙여넣기는 그대로 컨텍스트 비용이다.
- skeptical senior engineer 같은 커스텀 스타일은 동조형 답변을 줄이고 코드 리뷰 품질을 끌어올린다.
- Claude Code에서는 세션 프롬프트보다 CLAUDE.md 영향이 크다. 80줄 안팎 프로젝트 맥락이 반복 설명을 줄인다.
- 모델은 작업별로 나눈다. 기본은 Sonnet, 설계는 Opus, 티켓·메일·PDF 대량 처리는 Haiku가 맞다.
- 서브에이전트는 테스트 실행, 파일 조사, 문서 요약처럼 병렬로 굴릴 잡일에 맞다. 메인 코딩 흐름을 덜 끊는다.
출처: www.reddit.com/r/ClaudeAI/comments/1tgqnsl/11_claude_thi원문 보기 →
50radar
PHOTO
FIG-0031:1

`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 **87/100** 주장

// related

`Copilot` 클라우드 에이전트 저장소 설정, REST API로 감사 가능

`Copilot Spaces API` 정식 출시

매일 쓰는 `Claude` 사용 습관 11가지

`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 87/100 주장