telexed ~ c / caa9cb37-a10radar:50 · agent_toolLIVE
← 피드로
NO.
#caa9cb37
분야
에이전트·도구
출처
r/LocalLLaMA
게재
2026-05-16 07:19:25
중요도
★ 5/10 — radar 50

`Qwen3.6-35B-A3B`, `Terminal-Bench 2.0`에서 **24.6%** 기록

`Qwen3.6-35B-A3B` reaches **24.6%** on `Terminal-Bench 2.0`

작은 오픈 모델 조합이 하드 터미널 벤치에서 더 큰 에이전트 구성을 일부 앞섰다. 로컬 코딩 에이전트 실험감은 생겼지만, 아직은 벤치마크 신호에 가깝다.

[ 요점 ]
  1. little-coder x Qwen3.6-35B-A3B24.6% ±3.2를 기록해 Gemini CLIGemini 2.5 Pro 19.6%를 넘었다.
  2. Terminus 2Qwen3-Coder-480B 23.9%도 근소하게 앞섰다. 모델 크기보다 스캐폴드 설계가 결과를 뒤집을 수 있음.
  3. Qwen3.5-9B9.2%. sub-10B 로컬 모델도 어려운 에이전트 벤치에서 측정 가능한 성능 구간에 들어왔다.
  4. 실서비스 대체 근거로 쓰기엔 이르다. API 비용 절감 후보로 보되, 본인 코드베이스 작업에서 재검증해야 함.
원문www.reddit.com/r/LocalLLaMA/comments/1temio0/qwen3635ba3b_and_9b_are_officially_on_the_public/원문 보기 →

// related