telexed ~ c / d0221dd8-172radar:70 · agent_toolLIVE
← 피드로
NO.
#d0221dd8
분야
에이전트·도구
출처
Hacker News · AI Agent
게재
2026-05-19 12:23:07
중요도
★ 7/10 — radar 70
`Forge`, 로컬 8B 에이전트 작업을 프론티어급 신뢰도로 끌어올림
FIG-0021:1

`Forge`, 로컬 8B 에이전트 작업을 프론티어급 신뢰도로 끌어올림

`Forge` brings local 8B agent workflows near frontier reliability

모델 크기보다 가드레일 설계가 결과를 갈랐다. retry nudges와 오류 복구가 로컬 상시 에이전트의 클라우드 비용 대안을 현실화해, 바로 실험할 만함.

[ 요점 ]
  1. Ministral 8B+Forge99.3%, Claude Sonnet+가드레일은 100%. 로컬 8B와 프론티어 API 격차가 1포인트 미만.
  2. 가드레일 없는 Claude Sonnet87.2%에 그쳤고, 프레임워크 보강된 로컬 8B가 더 높았다. 모델 선택보다 실행 구조가 변수.
  3. 가장 큰 기여는 retry nudges와 오류 복구. 재시도 유도를 끄면 24-49포인트 하락해, 단순 재프롬프트가 핵심 안전장치가 됨.
  4. 서빙 백엔드 차이도 컸다. 같은 Mistral-Nemo 12Bllama-server 함수 호출 7%, Llamafile 프롬프트 모드 83%로 갈렸다.
원문github.com/antoinezambelli/forge원문 보기 →

// related