telexed ~ c / 6841e1a4-51aradar:50 · agent_toolLIVE
← 피드로
NO.
#6841e1a4
분야
에이전트·도구
출처
r/ClaudeAI
게재
2026-05-09 18:21:03
중요도
★ 5/10 — radar 50
`Autoharness`, `Claude Code` 하네스를 스스로 튜닝
FIG-6841:1

`Autoharness`, `Claude Code` 하네스를 스스로 튜닝

`Autoharness` lets `Claude Code` tune its own agent harness

에이전트 품질을 프롬프트 감이 아니라 eval 루프로 올리는 흐름이 한 단계 더 올라왔다. 점수 개선된 하네스 변경만 남기는 방식이라, 커스텀 에이전트 굴리는 쪽이면 바로 훑어볼 가치가 있다.

[ 요점 ]
  1. tau2-airline에서 best-of-N skillbook 스코어링+LLM 심사로 +40.7%. 평가기 설계 자체가 성능 레버로 올라왔다.
  2. 리플렉터 하이퍼파라미터 조정만으로 +24.1% 상승. temperature, 서브에이전트 호출 수 같은 기본값도 아직 덜 최적화돼 있다.
  3. 각 스텝마다 실행 컨텍스트를 주입하자 +22.2% 개선. step budget, 최근 툴 호출, 최근 결과를 계속 넣는 편이 유리했다.
  4. 사용 흐름은 단순하다. 설치 후 Claude CodeGUIDE.md에 연결하면 변경 제안, eval, 점수 상승분만 채택한다.
  5. 숫자는 특정 벤치 기준이라 그대로 믿을 건 아니지만, 하네스를 자동 변이시키고 바로 검증하는 운영 패턴은 재사용성이 높다.
원문www.reddit.com/r/ClaudeAI/comments/1t8cn9y/claude_improved_my_agent_harness_by_407_overnight/원문 보기 →

// related