문서 QA, 비전 LLM보다 OCR이 여전히 우세

Vision LLMs vs. OCR for PDF Q&A: OCR Still Wins on Cost and Accuracy

차트, 표가 많은 PDF에서 QA 구현 시, 파일을 통째로 비전 LLM에 넣는 방식은 정확도와 비용 모두 OCR 기반 파이프라인에 밀렸습니다. 아직은 OCR이 더 안정적이고 효율적인 선택지입니다.

[ 요점 ]

네이티브 비전 LLM 접근은 쿼리당 $0.2552로 가장 비쌌지만, 정확도는 52.0%로 6개 방식 중 5위에 그쳤습니다.
특히 비전 LLM의 강점으로 꼽히던 차트·표 페이지에서 오히려 성능이 저하됐고, 레이아웃을 분석하는 프리미엄 OCR이 더 나은 결과를 보였습니다.
비전 LLM은 특정 PDF 파일에서 7%의 영구적 실패율을 기록한 반면, OCR 파이프라인은 재시도 후 실패율 0%를 달성해 안정성이 더 높았습니다.

원문www.reddit.com/r/MachineLearning/comments/1tm0cqg/visioncapable_llms_vs_ocr_for_longdocument/원문 보기 →

// related

#0001
#0001기타 GeekNews3일 전
`Firefox` 데스크톱 151, `Web Serial API` 지원
Firefox Desktop 151 Adds `Web Serial API` Support
60radar
Web Serial API브라우저 API — JavaScript로 직렬 장치 직접 통신
브라우저 기반 하드웨어 도구가 Chrome 전용에서 한 발 벗어난다. Web Serial API로 네이티브 브리지 앱 없이 장치 연결 UX를 만들 수 있어 소형 B2B 툴에 바로 써먹을 만함.
- Firefox 151 데스크톱부터 호환 직렬 장치와 네이티브 소프트웨어 없이 통신 가능해짐.
- Web Serial API는 JavaScript로 직렬 데이터를 읽고 쓰는 표준 API. 마이크로컨트롤러·3D 프린터·전력계가 주요 대상.
- 설치형 설정 앱을 웹 대시보드로 대체하기 쉬워진다. 장치 온보딩, 진단, 펌웨어 보조 툴에 맞음.
- 브라우저 지원 범위가 제품 UX의 병목. 모바일·Safari까지 필요한 서비스라면 여전히 대체 경로를 둬야 함.
출처: news.hada.io/topic?id=29761원문 보기 →
FIG-0011:1
60radar
FIG-0011:1
#0002
#0002기타 GeekNews3일 전
`Utilyze`, GPU의 실제 유효 작업률을 보여주는 모니터링 도구
`Utilyze` Measures How Efficiently GPUs Do Useful Work
40radar
UtilyzeGPU 모니터링 도구 — 성능 카운터로 실제 사용량 표시
기존 GPU 모니터는 커널 실행만 보고 100% 활용률을 띄울 수 있다. 로컬 추론·미디어 생성·CUDA 실험에서 병목을 찾을 때만 써볼 만함.
- nvidia-smi, nvtop은 커널 실행 여부 중심이라 실제 하드웨어 자원 일부만 써도 포화처럼 보일 수 있음.
- Utilyze는 GPU 성능 카운터를 직접 읽어 라이브 자원 사용량을 표시한다. 단일 활용률보다 병목 추적이 선명해짐.
- 로컬 LLM, 이미지·영상 생성, CUDA 작업처럼 GPU 시간이 비용인 워크로드에 적합. 일반 SaaS 개발에는 우선순위 낮음.
출처: news.hada.io/topic?id=29749원문 보기 →
FIG-0021:1
40radar
FIG-0021:1
#0003
#0003기타 r/LocalLLaMA4일 전
`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접
`ik_llama.cpp` pushes `Qwen3.6 35B A3B` near 110 tok/s on 12GB VRAM
40radar
ik_llama.cppllama.cpp 포크 — CPU 오프로딩·양자화 최적화 강화
MTP와 CPU 오프로딩 조합으로 컨슈머 GPU에서도 로컬 MoE가 대화형 속도까지 올라온다. 프라이빗 코딩·배치 작업엔 실험 가치 있음.
- 같은 IQ4_XS 양자화에서 일반 llama.cpp 평균은 89.76 tok/s, ik_llama.cpp 샘플은 105-110 tok/s대까지 올라감.
- 환경은 RTX 4070 Super 12GB, Ryzen 7 9700X, 48GB DDR5. VRAM보다 CPU 오프로딩 최적화가 체감 속도를 좌우한다.
- 실행 옵션은 --ctx-size 131072, q8 KV cache, draft-mtp 조합. 긴 컨텍스트 로컬 추론은 여전히 메모리 세팅 의존도가 큼.
- 구매 판단용 벤치마크보다는 튜닝 힌트에 가깝다. 커널·양자화·포크 버전 차이로 결과가 크게 흔들릴 수 있음.
출처: www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_wi원문 보기 →
40radar
PHOTO
FIG-0031:1

문서 QA, 비전 LLM보다 OCR이 여전히 우세

// related

`Firefox` 데스크톱 151, `Web Serial API` 지원

`Utilyze`, GPU의 실제 유효 작업률을 보여주는 모니터링 도구

`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접