telexed ~ c / 042eba22-641radar:70 · agent_toolLIVE
← 피드로
NO.
#042eba22
분야
에이전트·도구
출처
Hacker News · AI
게재
2026-05-19 12:23:07
중요도
★ 7/10 — radar 70
`Forge`, 로컬 8B 에이전트 성공률을 프런티어 API 근처까지 끌어올림
FIG-0421:1

`Forge`, 로컬 8B 에이전트 성공률을 프런티어 API 근처까지 끌어올림

`Forge` Pushes Local 8B Agent Reliability Near Frontier APIs

모델을 키운 게 아니라 런타임 가드레일로 성공률을 올렸다. 반복 호출·복구·서빙 백엔드 선택이 모델 크기보다 큰 레버가 될 수 있어 바로 실험할 만함.

[ 요점 ]
  1. Ministral 8B+Forge99.3%, Claude Sonnet+가드레일은 100%. 로컬 에이전트 비용 구조를 다시 볼 숫자다.
  2. retry nudge를 끄면 24-49포인트 하락. 에이전트 안정성은 프롬프트보다 런타임 재시도 설계가 먼저다.
  3. 같은 Mistral-Nemo 12Bllama-server 네이티브 함수호출 7%, Llamafile 프롬프트 모드 83%로 갈렸다.
  4. 복구 로직 없이는 로컬·프런티어 모델 모두 error recovery 0%. 실패 후 경로를 제품 코드에 명시해야 한다.
원문github.com/antoinezambelli/forge원문 보기 →

// related