Telexed

telexed ~ home★4 이상 · 매시 갱신 · UTC+09LIVE

TELEXED// 1인 사업자 시그널 레이더 · 788호

AI 분야의 주요 소식 · 솔로 사업자에게 도움 되는 것만1 / 788

FILTER[전체][에이전트·도구][모델·API][생성형 미디어][인프라·SaaS][ASO·그로스][인디 비즈니스][아이디어 시그널][기타][★6+ high-signal]

the_neuron ✕필터 해제

5월 27일 (수)1 dispatches

#0788
#0788에이전트·도구 the_neuron그저께
`DeepSWE`, AI 코딩 벤치마크 누수·오판 문제 제기
`DeepSWE` Flags Leakage and False Negatives in AI Coding Benchmarks
50radar
DeepSWEAI 코딩 벤치마크 — 에이전트 채점 신뢰도 점검
리더보드 점수만 믿고 코딩 에이전트를 고르면 답안 암기와 채점 오류에 속을 수 있다. SWE-bench류 순위는 도입 기준이 아니라 1차 필터로 보는 게 맞음.
- DeepSWE는 GPT-5.5를 1위로 뽑았지만, 더 큰 신호는 승자가 아니라 벤치마크 신뢰도 문제다.
- 답안 누수는 에이전트 점수를 부풀린다. 높은 순위가 실제 레포 작업 품질을 보장하지 않는다.
- 유효한 패치가 오답 처리될 수 있어, 정답 경로와 다른 해결 능력은 벤치마크에서 과소평가된다.
- 유용한 에이전트 행동이 억제될 수 있다. 좁은 테스트는 탐색·도구 사용 같은 실제 작업 방식을 벌점화한다.
출처: www.theneuron.ai/explainer-articles/datacurves-deepswe-e원문 보기 →
50radar
PHOTO
FIG-7881:1