telexed ~ c / ad61ab41-57cradar:50 · agent_toolLIVE
← 피드로
NO.
#ad61ab41
분야
에이전트·도구
출처
r/LocalLLaMA
게재
2026-05-18 06:38:11
중요도
★ 5/10 — radar 50
`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 **87/100** 주장
FIG-0061:1

`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 **87/100** 주장

`SmallCode` hits 87/100 coding-agent tasks with an active 4B model

작은 로컬 모델의 약점을 모델 교체가 아니라 툴 설계로 막는다. 벤치마크는 자체 수치지만, 에이전트 하네스 패턴은 바로 재사용할 만함.

[ 요점 ]
  1. 복합 툴이 파일 탐색→읽기→수정→검증을 한 번에 묶는다. 작은 모델이 3회 이상 툴 호출에서 흐트러지는 문제를 줄이는 방식.
  2. 코드 작성 직후 컴파일·린트를 돌리고 오류를 다시 넣는다. 첫 시도 정확도보다 실패 복구 루프가 성능을 만든다.
  3. 같은 실패가 반복되면 큰 작업을 더 잘게 쪼갠다. “200줄 파일 수정”을 “45번째 줄 수정”으로 낮추는 식.
  4. OpenAI·Claude 키가 있으면 막힌 작업만 클라우드 모델로 넘긴다. 로컬 비용 절감과 완주율 사이의 타협안.
원문www.reddit.com/r/LocalLLaMA/comments/1tgecrq/i_built_a_coding_agent_that_gets_87_on_benchmarks/원문 보기 →

// related