SOB 벤치마크, JSON 통과율보다 값 정확도가 중요한 이유

구조화 출력 평가의 기준이 바뀌고 있다

Interfaze가 공개한 Structured Output Benchmark, SOB는 LLM이 JSON을 “형식상” 잘 내보내는지보다 “값이 맞는지”를 더 중요하게 본다. 공식 글은 텍스트, 이미지 문서, 오디오 회의록에서 추출된 정규화 컨텍스트를 대상으로 5,000개 텍스트, 209개 이미지 문서, 115개 오디오 대화 평가 레코드를 사용한다고 설명한다. 관련 arXiv 논문, 리더보드, Hugging Face 데이터셋, GitHub 벤치마크도 함께 공개됐다.

핵심 메시지는 단순하다. JSON이 파싱되고 스키마를 통과해도 invoice_total 값이 틀리면 업무 자동화는 실패한다. 운영 시스템은 “예쁜 JSON”이 아니라 다음 단계가 믿고 읽을 수 있는 필드를 필요로 한다.

일곱 지표가 보여주는 것

SOB는 Value Accuracy, JSON Pass Rate, Type Safety, Structure Coverage, Path Recall, Faithfulness, Perfect Response를 분리해 본다. 공식 결과에서 상위 모델들의 JSON Pass와 Type Safety는 대부분 높은 수준에 몰려 있지만, Value Accuracy와 Perfect Response에서 차이가 벌어진다. 이는 실무자가 이미 체감하던 문제와 맞닿아 있다. 모델은 형식을 지키는 법을 배웠지만, 원문에 근거한 값을 안정적으로 채우는 일은 아직 어렵다.

지표	실무 의미	실패 시 결과
JSON Pass	파서가 읽을 수 있음	워크플로 즉시 중단
Type Safety	값 타입이 맞음	DB 저장 오류 감소
Path Recall	필요한 키가 존재	누락 필드로 후속 처리 실패
Value Accuracy	실제 값이 맞음	잘못된 청구·분류·의사결정
Faithfulness	원문 근거가 있음	환각 데이터 유입 방지
Perfect Response	전체 레코드 완전 일치	무검수 자동화 가능성

LamBench 등장에서 추론 평가가 다시 어려워졌다고 봤다면, SOB는 자동화 평가가 더 세밀해지고 있음을 보여준다. 한 숫자로 모델을 줄 세우는 시대에서, 실패 유형을 분해해 운영 결정을 내리는 시대로 가고 있다.

왜 개발자 도구에 중요할까

구조화 출력은 단순 API 옵션이 아니다. 고객지원 티켓 분류, 보험 청구서 추출, 회의록 액션아이템 생성, 코드 리팩터링 계획, 보안 이벤트 정규화 같은 에이전트 워크플로의 접착제다. 오픈AI 코덱스 랩스나 구글 제미나이 엔터프라이즈 에이전트 플랫폼 같은 흐름도 결국 모델이 도구와 시스템 사이에 정확한 구조를 전달할 수 있는지에 달려 있다.

개발팀은 벤치마크 점수를 그대로 구매 기준으로 삼기보다, 자기 업무의 오류 비용을 반영해야 한다. 예컨대 마케팅 태그 자동화는 누락 몇 개를 사람이 고칠 수 있지만, 재무 전표 자동 입력은 값 오류 하나가 큰 사고가 된다. 따라서 JSON schema validation만 통과시키는 테스트는 부족하다. 샘플 원문과 정답 값을 만들고, 필드별 비용 가중치를 둬야 한다.

리더보드 해석의 주의점

SOB는 이미지와 오디오를 텍스트로 정규화해 평가함으로써 OCR·ASR 성능을 분리하려 한다. 이는 구조화 추출 능력을 고립시키는 장점이 있지만, 실제 제품에서는 OCR 품질, PDF 레이아웃, 음성 인식 오류도 함께 작동한다. 따라서 리더보드는 “모델의 구조화 추출 코어 능력”을 보는 기준이지, 전체 문서 자동화 제품의 보증서는 아니다.

또 하나는 온도와 reasoning 설정이다. 공식 글은 가능한 경우 temperature 0.0, max output 2048, reasoning 비활성 조건에서 평가했다고 설명한다. 프로덕션에서 reasoning을 켜거나 긴 컨텍스트를 쓰면 결과가 달라질 수 있다. 오픈AI GPT-5.5 업무형 모델처럼 모델 자체가 바뀔 때마다 내부 회귀 테스트가 필요하다.

한국 기업 적용법

업무별 골든셋을 100~300개라도 만든다.
JSON 파싱률, 필드 누락률, 값 정확도, 치명 필드 오류율을 분리한다.
모델 교체, 프롬프트 변경, schema 변경 때마다 회귀 테스트를 자동 실행한다.
낮은 위험 필드는 자동 처리하고, 고위험 필드는 신뢰도·근거 링크 없이는 사람 검수로 보낸다.
벤치마크 결과는 내부 데이터셋 점수와 함께 의사결정한다.

FAQ

Q1. JSON schema를 강제하면 충분하지 않나?
아니다. schema는 형식만 보장한다. 값이 원문과 맞는지, 누락된 필드가 없는지 별도로 평가해야 한다.

Q2. Value Accuracy가 왜 핵심인가?
다운스트림 시스템이 실제로 쓰는 것은 타입이 아니라 값이다. 틀린 값은 조용히 잘못된 자동화를 만든다.

Q3. SOB 리더보드 1위 모델을 쓰면 되나?
참고는 되지만 내부 데이터로 재검증해야 한다. 산업별 문서 구조와 오류 비용이 다르다.

Q4. 이미지·오디오 평가를 텍스트로 정규화한 이유는?
OCR과 ASR 품질을 제외하고 모델의 스키마 처리와 값 grounding 능력을 보려는 설계다.

Q5. 작은 팀도 이런 평가가 가능한가?
가능하다. 처음에는 50개 핵심 문서와 필드별 정답표만으로도 모델·프롬프트 변경의 위험을 크게 줄일 수 있다.

SOB 벤치마크, JSON 통과율보다 값 정확도가 중요한 이유

AI 뉴스를 놓치지 마세요

구조화 출력 평가의 기준이 바뀌고 있다

일곱 지표가 보여주는 것

왜 개발자 도구에 중요할까

리더보드 해석의 주의점

한국 기업 적용법

FAQ

관련 토픽 더 보기

관련 기사

Caveman 벤치마크, 짧은 답변보다 중요한 것은 일관된 구조다

Google Colab MCP Server, AI 에이전트의 클라우드 손이 된다

코딩 에이전트의 6가지 핵심 구성 요소 완전 분석

Karpathy의 LLM Wiki: RAG를 넘어선 영구 지식베이스 설계법

EsoLang-Bench, 진정한 AI 추론 능력 평가 벤치마크 등장