telexed ~ c / 153a1062-d5bradar:50 · otherLIVE
← 피드로
NO.
#153a1062
분야
기타
출처
Hacker News · Show HN AI
게재
2026-04-29 16:01:51
중요도
★ 5/10 — radar 50
`Structured Output Benchmark`, LLM의 값 정확도까지 검증
FIG-1531:1

`Structured Output Benchmark`, LLM의 값 정확도까지 검증

`Structured Output Benchmark` targets value-level LLM correctness

스키마만 맞는 JSON으로는 자동화가 자주 깨진다. SOB값 정확도까지 텍스트·이미지·오디오별로 재서, 추출 파이프라인용 모델 선택 기준을 한 단계 현실로 끌어내렸다.

[ 요점 ]
  1. 기존 JSONSchemaBench류는 스키마·타입 통과율 위주라 날짜 오차, 배열 순서 뒤바뀜 같은 구조화 환각을 거의 못 잡는다.
  2. 각 샘플마다 JSON Schema와 사람이 검증한 정답을 붙였다. 필드 하나라도 틀리면 오답 처리해 실무 실패율에 더 가깝다.
  3. 모달리티별 순위가 갈린다. 텍스트는 GLM-4.7, 이미지는 Gemma-4-31B, 오디오는 Gemini-2.5-Flash가 앞선다.
  4. GPT-5.4는 전체 2위권이지만 텍스트 3위, 이미지 9위로 흔들린다. 범용 1개 모델 고정 전략이 비효율적이다.
  5. 모델 크기도 답이 아니다. Qwen3.5-35B, GLM-4.7, Phi-4가 더 큰 상위권 모델을 값 정확도에서 이긴다.
원문interfaze.ai/blog/introducing-structured-output-benchmark원문 보기 →

// related