telexed ~ c / 006fbbf7-30aradar:70 · agent_toolLIVE
← 피드로
NO.
#006fbbf7
분야
에이전트·도구
출처
Hacker News · MRR
게재
2026-05-19 12:23:07
중요도
★ 7/10 — radar 70
`Forge`, 가드레일만으로 로컬 8B 에이전트 성공률 53%→99%
FIG-0061:1

`Forge`, 가드레일만으로 로컬 8B 에이전트 성공률 53%→99%

`Forge` raises local 8B agent task success from 53% to 99% with guardrails

모델 교체보다 오케스트레이션이 성능을 갈랐다. Forge는 클라우드 에이전트 비용이 부담될 때 로컬 툴콜링을 실전 후보로 올려놓음.

[ 요점 ]
  1. Ministral 8B+Forge가 멀티스텝 워크플로에서 99.3%를 기록. 같은 가드레일의 Claude Sonnet100%였다.
  2. 재시도 메커니즘이 없으면 로컬·프런티어 모델 모두 에러 복구 점수 0%. 모델 능력보다 아키텍처 공백이 컸다.
  3. 같은 Mistral-Nemo 12B도 백엔드에 따라 llama-server 7%, Llamafile 프롬프트 모드 83%로 갈렸다.
  4. 어블레이션에서 실속은 retry nudge와 error recovery. rescue parsing·context compaction은 드물게 터지는 운영 장애용에 가깝다.
원문github.com/antoinezambelli/forge원문 보기 →

// related