telexed ~ c / 78f7ba84-504radar:70 · agent_toolLIVE
← 피드로
NO.
#78f7ba84
분야
에이전트·도구
출처
Hacker News · LLM
게재
2026-05-19 12:23:07
중요도
★ 7/10 — radar 70
`Forge`, 로컬 LLM 툴콜링 안정화 가드레일 공개
FIG-0781:1

`Forge`, 로컬 LLM 툴콜링 안정화 가드레일 공개

`Forge` pushes local LLM tool-calling reliability with guardrail retries

모델을 키우는 대신 재시도·단계 강제·오류 복구로 멀티스텝 성공률을 끌어올린다. 상시 에이전트를 로컬로 굴릴 때 API 비용을 줄일 현실적 옵션.

[ 요점 ]
  1. Ministral 8BForge 적용 시 99.3%, 같은 레이어의 Claude Sonnet100%를 기록. 모델보다 실행 시스템 차이가 컸다.
  2. 가드레일 없는 Claude Sonnet87.2%에 그쳤다. 프론티어 API만 붙이는 설계가 항상 최선은 아님.
  3. 재시도 nudges 제거 시 24-49포인트 하락, 오류 복구 제거 시 약 10포인트 하락. 핵심은 반복 실패를 구조적으로 다루는 부분.
  4. 같은 Mistral-Nemo 12Bllama-server 네이티브 함수호출 7%, Llamafile 프롬프트 모드 83%. 서빙 백엔드가 벤치 결과를 뒤집는다.
원문github.com/antoinezambelli/forge원문 보기 →

// related