`Qwen3.6 27B` pure `Q4_K_M` GGUF, 16GB VRAM에 적재

`Qwen3.6 27B` pure `Q4_K_M` GGUF fits in **16GB VRAM**

pure 양자화로 모델 전체를 소비자 GPU 메모리에 올리는 선택지가 생겼다. 로컬 에이전트 실험용으론 쓸 만하지만, 품질 손실과 벤치마크 부족은 감수해야 함.

[ 요점 ]

Q4_K_M MTP는 15.4GB, non-MTP는 15.1GB. 비교 대상 GGUF가 16.5-18GB라 16GB 카드에선 차이가 큼.
MTP는 생성 40 tok/s 대신 프롬프트 처리 195 tok/s. non-MTP는 프롬프트 715 tok/s, 생성 24 tok/s로 반대 성향.
PPL 델타는 MTP +0.1707, non-MTP +0.1051. Unsloth 양자화보다 손실이 커서 품질 우선 작업엔 애매하다.

원문www.reddit.com/r/LocalLLaMA/comments/1tkzk9e/qwen36_27b_pure_quant_40_toks_on_16_gb_vram/원문 보기 →

// related

#0001
#0001기타 GeekNews어제
이름-값 UI에는 HTML `<dl>`을 쓰자
Use HTML `<dl>` for Name-Value UI Patterns
40radar
이름-값 쌍을 나열하는 UI는 div 반복보다 <dl>이 더 정확하다. 편의시설, 청구 항목, 스펙 표시에 바로 적용할 수 있는 작은 마크업 습관.
- <dl>은 이름-값 쌍 목록을 의미적으로 표현하는 HTML 요소. 용어집 전용 태그가 아니다.
- 편의시설, 청구 항목, 기술 용어집처럼 라벨과 값이 반복되는 UI에 맞는다.
- 이름은 <dt>, 값은 <dd>로 나누면 커스텀 구조 없이도 의미가 살아난다.
출처: news.hada.io/topic?id=29821원문 보기 →
FIG-0011:1
40radar
FIG-0011:1
#0002
#0002기타 r/MachineLearning그저께
문서 QA, 비전 LLM보다 OCR이 여전히 우세
Vision LLMs vs. OCR for PDF Q&A: OCR Still Wins on Cost and Accuracy
60radar
차트, 표가 많은 PDF에서 QA 구현 시, 파일을 통째로 비전 LLM에 넣는 방식은 정확도와 비용 모두 OCR 기반 파이프라인에 밀렸습니다. 아직은 OCR이 더 안정적이고 효율적인 선택지입니다.
- 네이티브 비전 LLM 접근은 쿼리당 $0.2552로 가장 비쌌지만, 정확도는 52.0%로 6개 방식 중 5위에 그쳤습니다.
- 특히 비전 LLM의 강점으로 꼽히던 차트·표 페이지에서 오히려 성능이 저하됐고, 레이아웃을 분석하는 프리미엄 OCR이 더 나은 결과를 보였습니다.
- 비전 LLM은 특정 PDF 파일에서 7%의 영구적 실패율을 기록한 반면, OCR 파이프라인은 재시도 후 실패율 0%를 달성해 안정성이 더 높았습니다.
출처: www.reddit.com/r/MachineLearning/comments/1tm0cqg/vision원문 보기 →
60radar
PHOTO
FIG-0021:1
#0003
#0003기타 GeekNews그저께
`Electrobun 2.0`, Rust 재작성으로 `Bun`에서 분리 예정
`Electrobun 2.0` to Split from `Bun` After Rust Rewrite
40radar
Electrobun데스크톱 앱 프레임워크 — 웹 기술로 네이티브 앱 패키징
데스크톱 앱 런타임 의존 구조가 Bun 중심에서 멀어진다. Electron 대안을 검토 중이면 추적할 만하지만, 당장 갈아탈 신호는 아님.
- Electrobun 2.0은 Rust 재작성과 함께 Bun 의존을 낮춘다. 런타임 배포·업데이트 구조가 바뀔 가능성이 큼.
- 분리 판단에는 Anthropic의 인간 리뷰, 단계적 롤아웃, 안정화 과정이 충분하지 않다는 평가가 들어갔다.
- Electron 대체 스택을 고르는 중이면 체크할 뉴스. 프로덕션 도입은 마이그레이션 문서와 안정화 이후가 맞다.
출처: news.hada.io/topic?id=29815원문 보기 →
FIG-0031:1
40radar
FIG-0031:1

`Qwen3.6 27B` pure `Q4_K_M` GGUF, **16GB VRAM**에 적재

// related

이름-값 UI에는 HTML `<dl>`을 쓰자

문서 QA, 비전 LLM보다 OCR이 여전히 우세

`Electrobun 2.0`, Rust 재작성으로 `Bun`에서 분리 예정

`Qwen3.6 27B` pure `Q4_K_M` GGUF, 16GB VRAM에 적재