telexed ~ c / bbc5e5ac-abaradar:50 · agent_toolLIVE
← 피드로
NO.
#bbc5e5ac
분야
에이전트·도구
출처
the_neuron
게재
2026-05-27 12:29:50
중요도
★ 5/10 — radar 50

`DeepSWE`, AI 코딩 벤치마크 누수·오판 문제 제기

`DeepSWE` Flags Leakage and False Negatives in AI Coding Benchmarks

리더보드 점수만 믿고 코딩 에이전트를 고르면 답안 암기와 채점 오류에 속을 수 있다. SWE-bench류 순위는 도입 기준이 아니라 1차 필터로 보는 게 맞음.

[ 요점 ]
  1. DeepSWEGPT-5.5를 1위로 뽑았지만, 더 큰 신호는 승자가 아니라 벤치마크 신뢰도 문제다.
  2. 답안 누수는 에이전트 점수를 부풀린다. 높은 순위가 실제 레포 작업 품질을 보장하지 않는다.
  3. 유효한 패치가 오답 처리될 수 있어, 정답 경로와 다른 해결 능력은 벤치마크에서 과소평가된다.
  4. 유용한 에이전트 행동이 억제될 수 있다. 좁은 테스트는 탐색·도구 사용 같은 실제 작업 방식을 벌점화한다.
원문www.theneuron.ai/explainer-articles/datacurves-deepswe-exposes-a-weird-new-problem-with-ai-coding-leaderboards/원문 보기 →

// related