#0001
문서 QA, 비전 LLM보다 OCR이 여전히 우세
Vision LLMs vs. OCR for PDF Q&A: OCR Still Wins on Cost and Accuracy
60radar
차트, 표가 많은 PDF에서 QA 구현 시, 파일을 통째로 비전 LLM에 넣는 방식은 정확도와 비용 모두 OCR 기반 파이프라인에 밀렸습니다. 아직은 OCR이 더 안정적이고 효율적인 선택지입니다.
- 네이티브
비전 LLM접근은 쿼리당$0.2552로 가장 비쌌지만, 정확도는 52.0%로 6개 방식 중 5위에 그쳤습니다. - 특히
비전 LLM의 강점으로 꼽히던 차트·표 페이지에서 오히려 성능이 저하됐고, 레이아웃을 분석하는 프리미엄OCR이 더 나은 결과를 보였습니다. 비전 LLM은 특정 PDF 파일에서 7%의 영구적 실패율을 기록한 반면,OCR파이프라인은 재시도 후 실패율 0%를 달성해 안정성이 더 높았습니다.
출처: www.reddit.com/r/MachineLearning/comments/1tm0cqg/vision원문 보기 →