NO.: #bbc5e5ac
분야: 에이전트·도구
출처: the_neuron
게재: 2026-05-27 12:29:50
중요도: ★ 5/10 — radar 50
원문: www.theneuron.ai/explainer-articles/datacurves-deepswe-exposes-a-weird-new-problem-with-ai-coding-leaderboards/

`DeepSWE`, AI 코딩 벤치마크 누수·오판 문제 제기

`DeepSWE` Flags Leakage and False Negatives in AI Coding Benchmarks

리더보드 점수만 믿고 코딩 에이전트를 고르면 답안 암기와 채점 오류에 속을 수 있다. SWE-bench류 순위는 도입 기준이 아니라 1차 필터로 보는 게 맞음.

[ 요점 ]

DeepSWE는 GPT-5.5를 1위로 뽑았지만, 더 큰 신호는 승자가 아니라 벤치마크 신뢰도 문제다.
답안 누수는 에이전트 점수를 부풀린다. 높은 순위가 실제 레포 작업 품질을 보장하지 않는다.
유효한 패치가 오답 처리될 수 있어, 정답 경로와 다른 해결 능력은 벤치마크에서 과소평가된다.
유용한 에이전트 행동이 억제될 수 있다. 좁은 테스트는 탐색·도구 사용 같은 실제 작업 방식을 벌점화한다.

원문www.theneuron.ai/explainer-articles/datacurves-deepswe-exposes-a-weird-new-problem-with-ai-coding-leaderboards/원문 보기 →

// related

#0001
#0001에이전트·도구 Google AI Forum3시간 전
`Gemini Code Assist` 개인용 IDE/CLI 요청 중단 예고
`Gemini Code Assist` Individual IDE/CLI Access May End June 18
80radar
Gemini Code AssistAI 코딩 도우미 — IDE 확장과 CLI에서 Gemini 지원
개인 Pro·Ultra와 무료 계정 연결이 2026년 6월 18일 끊긴다. VS Code 워크플로우는 대체 인증이나 도구를 미리 정해야 함.
- 대상은 Gemini CLI와 Gemini Code Assist IDE 확장. 개인 Pro·Ultra·무료 계정 경로가 걸려 있다.
- 중단일은 2026년 6월 18일. VS Code에 개인 Gemini 계정을 붙여 쓰는 자동화는 그 전에 백업 플랜이 필요.
- Antigravity 전용 VS Code 확장 지속 여부는 확인되지 않았다. 공식 마이그레이션 공지가 나올 때까지 불확실성이 큼.
출처: discuss.ai.google.dev/t/will-there-no-longer-be-a-gemini원문 보기 →
FIG-0011:1
80radar
FIG-0011:1
#0002
#0002에이전트·도구 Hacker News · Show HN AI3시간 전
`AISlop`, AI 생성 코드 냄새 잡는 로컬 CLI
`AISlop`, a CLI that catches AI-generated code smells
60radar
AISlopAI 코드 품질 CLI — 로컬에서 코드 냄새 스캔
테스트는 통과하지만 남는 빈 catch, 죽은 코드, 중복 헬퍼를 스캔한다. 코드 업로드 없이 훅에 붙일 수 있어 에이전트 작업 후처리로 바로 써볼 만함.
- npx aislop scan으로 실행하고 전부 로컬 처리한다. 비공개 앱 저장소에도 붙이기 쉬운 형태.
- 문법 오류가 아니라 빈 catch, 무의미한 주석, 죽은 코드, 중복 헬퍼처럼 리뷰에서 자주 새는 패턴을 겨냥.
- Claude Code, Codex, opencode 사용 뒤 훅으로 돌리는 구조. 에이전트 산출물의 잔여 찌꺼기 관리에 맞다.
출처: github.com/scanaislop/aislop원문 보기 →
FIG-0021:1
60radar
FIG-0021:1
#0003
#0003에이전트·도구 Google AI Forum5시간 전
`Antigravity Ultra`, Claude Opus thinking에서 `MODEL_CAPACITY_EXHAUSTED` 반복
`Antigravity Ultra` users hit persistent `MODEL_CAPACITY_EXHAUSTED` on Claude Opus thinking
60radar
Antigravity코딩 에이전트 IDE — Google 백엔드 모델 라우팅 사용
유료 플랜이어도 에이전트 작업이 시작 직후 503 용량 오류로 끊긴다. Claude 중심 워크플로우라면 Antigravity Ultra는 당분간 신뢰도 리스크가 큼.
- 오류는 cloudcode-pa.googleapis.com의 503 `MODEL_CAPACITY_EXHAUSTED`. 사용자 쿼터가 아니라 서버 모델 수용량 문제다.
- 파일 편집, bash 실행, 코드 생성 같은 멀티스텝 작업이 1-29초 안에 끊긴다. 긴 에이전트 작업용으로 치명적.
- Server-Timing은 약 13초 동안 모델 용량 확보를 기다린 뒤 실패한다. 재시도해도 구조가 바뀌지 않는다.
- 비슷한 포럼 스레드가 한 달 가까이 이어졌다. 계정별 라우팅이나 우선순위 배정 문제가 제품 신뢰도를 깎는다.
출처: discuss.ai.google.dev/t/persistent-model-capacity-exhaus원문 보기 →
FIG-0031:1
60radar
FIG-0031:1

`DeepSWE`, AI 코딩 벤치마크 누수·오판 문제 제기

// related

`Gemini Code Assist` 개인용 IDE/CLI 요청 중단 예고

`AISlop`, AI 생성 코드 냄새 잡는 로컬 CLI

`Antigravity Ultra`, Claude Opus thinking에서 `MODEL_CAPACITY_EXHAUSTED` 반복