telexed ~ c / 69f95a49-eadradar:60 · otherLIVE
← 피드로
NO.
#69f95a49
분야
기타
출처
r/MachineLearning
게재
2026-05-24 03:11:52
중요도
★ 6/10 — radar 60

문서 QA, 비전 LLM보다 OCR이 여전히 우세

Vision LLMs vs. OCR for PDF Q&A: OCR Still Wins on Cost and Accuracy

차트, 표가 많은 PDF에서 QA 구현 시, 파일을 통째로 비전 LLM에 넣는 방식은 정확도와 비용 모두 OCR 기반 파이프라인에 밀렸습니다. 아직은 OCR이 더 안정적이고 효율적인 선택지입니다.

[ 요점 ]
  1. 네이티브 비전 LLM 접근은 쿼리당 $0.2552가장 비쌌지만, 정확도는 52.0%로 6개 방식 중 5위에 그쳤습니다.
  2. 특히 비전 LLM의 강점으로 꼽히던 차트·표 페이지에서 오히려 성능이 저하됐고, 레이아웃을 분석하는 프리미엄 OCR이 더 나은 결과를 보였습니다.
  3. 비전 LLM은 특정 PDF 파일에서 7%의 영구적 실패율을 기록한 반면, OCR 파이프라인은 재시도 후 실패율 0%를 달성해 안정성이 더 높았습니다.
원문www.reddit.com/r/MachineLearning/comments/1tm0cqg/visioncapable_llms_vs_ocr_for_longdocument/원문 보기 →

// related