#0788
`DeepSWE`, AI 코딩 벤치마크 누수·오판 문제 제기
`DeepSWE` Flags Leakage and False Negatives in AI Coding Benchmarks
50radar
DeepSWEAI 코딩 벤치마크 — 에이전트 채점 신뢰도 점검
리더보드 점수만 믿고 코딩 에이전트를 고르면 답안 암기와 채점 오류에 속을 수 있다. SWE-bench류 순위는 도입 기준이 아니라 1차 필터로 보는 게 맞음.
DeepSWE는GPT-5.5를 1위로 뽑았지만, 더 큰 신호는 승자가 아니라 벤치마크 신뢰도 문제다.- 답안 누수는 에이전트 점수를 부풀린다. 높은 순위가 실제 레포 작업 품질을 보장하지 않는다.
- 유효한 패치가 오답 처리될 수 있어, 정답 경로와 다른 해결 능력은 벤치마크에서 과소평가된다.
- 유용한 에이전트 행동이 억제될 수 있다. 좁은 테스트는 탐색·도구 사용 같은 실제 작업 방식을 벌점화한다.
출처: www.theneuron.ai/explainer-articles/datacurves-deepswe-e원문 보기 →