`Structured Output Benchmark`, LLM의 값 정확도까지 검증

`Structured Output Benchmark` targets value-level LLM correctness

스키마만 맞는 JSON으로는 자동화가 자주 깨진다. SOB는 값 정확도까지 텍스트·이미지·오디오별로 재서, 추출 파이프라인용 모델 선택 기준을 한 단계 현실로 끌어내렸다.

[ 요점 ]

기존 JSONSchemaBench류는 스키마·타입 통과율 위주라 날짜 오차, 배열 순서 뒤바뀜 같은 구조화 환각을 거의 못 잡는다.
각 샘플마다 JSON Schema와 사람이 검증한 정답을 붙였다. 필드 하나라도 틀리면 오답 처리해 실무 실패율에 더 가깝다.
모달리티별 순위가 갈린다. 텍스트는 GLM-4.7, 이미지는 Gemma-4-31B, 오디오는 Gemini-2.5-Flash가 앞선다.
GPT-5.4는 전체 2위권이지만 텍스트 3위, 이미지 9위로 흔들린다. 범용 1개 모델 고정 전략이 비효율적이다.
모델 크기도 답이 아니다. Qwen3.5-35B, GLM-4.7, Phi-4가 더 큰 상위권 모델을 값 정확도에서 이긴다.

원문interfaze.ai/blog/introducing-structured-output-benchmark원문 보기 →

// related

#0001
#0001기타 GeekNews6시간 전
`Bambu Studio`, `AGPLv3` 위반 논란
`Bambu Studio` Faces Broad AGPLv3 Compliance Challenge
40radar
Bambu Studio3D 프린팅 슬라이서 — PrusaSlicer 기반 수정판
강한 카피레프트는 앱 수정분만 공개한다고 끝나지 않는다. 동적 링크 라이브러리와 설치 정보까지 걸리면, 상용 배포 전 라이선스 검토가 필수다.
- AGPLv3의 Corresponding Source는 생성·설치·실행·수정에 필요한 코드까지 포함한다.
- 수정 앱에 밀접히 결합된 독점 네트워킹 라이브러리는 동적 링크만으로도 소스 공개 쟁점이 된다.
- 오픈소스 포크를 제품화할 때는 바이너리 배포 전에 라이선스 의무와 설치 정보 제공 범위를 점검해야 함.
출처: news.hada.io/topic?id=29694원문 보기 →
FIG-0011:1
40radar
FIG-0011:1
#0002
#0002기타 GeekNews6시간 전
Google I/O 2026의 `Chrome` 웹 개발 신기술 정리
What's New in `Chrome` from Google I/O 2026
50radar
웹이 사람 클릭 중심에서 에이전트 탐색과 AI 보조 개발 중심으로 이동 중이다. 사이트 구조화와 DevTools 흐름 변화는 미리 봐둘 가치가 있음.
- Paul Kinlan이 최근 6개월의 웹 개발 환경 변화를 큰 축으로 묶어 설명했다. 단순 기능 추가보다 방향성 발표에 가깝다.
- 한 축은 에이전트가 사용자 대신 웹을 탐색하는 시대의 사이트 준비. 구조화된 화면과 기계가 읽기 쉬운 흐름이 중요해진다.
- 개발 도구 변화도 포함됐다. Chrome DevTools가 검사 도구에서 AI 보조 디버깅·개발 흐름으로 확장되는 방향이다.
- 본문이 짧아 API명·출시일·지원 범위는 확인되지 않는다. 지금 구현보다 웹앱 설계 체크리스트로 받아들이면 충분하다.
출처: news.hada.io/topic?id=29693원문 보기 →
FIG-0021:1
50radar
FIG-0021:1
#0003
#0003기타 GeekNews9시간 전
`JavaScript` 디블로팅: 작은 UI가 무거워지는 이유
JavaScript Debloating: Complexity, Libraries, and the WASM Trade-off
40radar
작은 브라우저 UI도 라이브러리 의존성이 쌓이면 금방 무거워진다. WebAssembly가 대안이어도 이벤트 루프 연결 비용 때문에 항상 이득은 아님.
- 중첩 괄호와 콜백이 많아질수록 JavaScript 복잡도는 빠르게 오른다. 코드량보다 구조가 먼저 병목이 된다.
- 작은 UI에도 여러 라이브러리를 끌어오는 습관이 비대화의 출발점. 패키지 추가 전 기본 API로 충분한지 봐야 한다.
- WebAssembly는 다른 언어를 브라우저에서 돌리는 길을 열지만, Pyodide처럼 JS 이벤트 루프와 붙는 순간 비동기 비용이 생긴다.
출처: news.hada.io/topic?id=29675원문 보기 →
FIG-0031:1
40radar
FIG-0031:1

`Structured Output Benchmark`, LLM의 값 정확도까지 검증

// related

`Bambu Studio`, `AGPLv3` 위반 논란

Google I/O 2026의 `Chrome` 웹 개발 신기술 정리

`JavaScript` 디블로팅: 작은 UI가 무거워지는 이유