`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원

`llama.cpp` fork enables quantized KV cache with tensor split

텐서 병렬을 쓰면서 q8_0 KV 캐시를 유지해 듀얼 GPU 로컬 추론 병목을 줄인다. 아직 포크라 운영용보다 실험용으로 바로 검증할 만함.

[ 요점 ]

Qwen3.5 27B Q4_K_M 생성 성능은 -sm tensor 적용 시 30.05 tok/s, 미적용 21.22 tok/s로 측정됐다.
핵심은 -ctk q8_0 -ctv q8_0와 텐서 분할을 같이 쓰는 것. 기존 비양자화 KV 캐시 제약을 우회한다.
실사용 체감은 3060 12GB + 4070 Super 12GB 조합에서 약 25 tok/s → 40 tok/s 수준으로 제시됐다.
MoE 모델은 현재 -sm tensor 이슈가 있어 제외. Qwen 27B/9B 같은 dense 모델 테스트가 현실적이다.

원문www.reddit.com/r/LocalLLaMA/comments/1tflngz/dual_gpu_llamacpp_speedup/원문 보기 →

// related

#0001
#0001기타 r/MachineLearning어제
Hugging Face가 `PapersWithCode`를 AI 파싱 기반으로 부활
Hugging Face revives `PapersWithCode` with AI-parsed leaderboards
50radar
PapersWithCodeAI 논문 추적 서비스 — 코드·벤치마크 자동 연결
논문 트렌드, 메서드, 인용수, 저장소, 아티팩트, 벤치마크 결과를 한곳에 다시 묶는다. 모델·라이브러리 후보를 빠르게 거르는 용도로는 지금 써볼 만함.
- 기본 랭킹은 GitHub 스타 증가 속도 기준. 인용수보다 개발자 관심이 빠르게 붙는 연구 프로젝트를 먼저 잡아낸다.
- 초기 커버리지는 Qwen 3.5, RF-DETR, DINOv3, MTEB, Open ASR Leaderboard처럼 영향 큰 항목 중심.
- 논문 페이지에 GitHub 저장소, 프로젝트 URL, 아티팩트, PDF를 자동 연결한다. 한 논문에 여러 repo도 붙일 수 있음.
- MMTEB, COCO val 2017, Terminal Bench 같은 도메인별 리더보드가 있어 모델 선택 전 1차 필터로 좋다.
- 결과 추출은 AI 에이전트가 맡지만 검증은 아직 수동. 최종 근거보다 후보군 압축 도구로 보는 게 맞음.
출처: www.reddit.com/r/MachineLearning/comments/1tgmwqr/revivi원문 보기 →
50radar
PHOTO
FIG-0011:1
#0002
#0002기타 GeekNews어제
`rkdebian`, 80달러 `RK3562` Android 태블릿을 Debian 워크스테이션으로 전환
`rkdebian` turns an $80 RK3562 Android tablet into a Debian workstation
40radar
rkdebianDebian 이미지 빌드 시스템 — Doogee U10 전용
버려질 저가 기기를 부팅 가능한 Debian 12 머신으로 바꾸는 경로가 생겼다. 특정 태블릿 전용 프리릴리스라 실전 장비보다는 저비용 실험용에 맞음.
- 대상은 Rockchip RK3562 기반 Doogee U10으로 좁다. 같은 칩셋이라도 바로 재사용 가능하다고 보면 안 됨.
- 출력물은 부팅 가능한 Debian 12 Bookworm 이미지. 앱 개발 도구라기보다 하드웨어 재활용 빌드 시스템에 가깝다.
- 공개 프리릴리스 빌드는 2026년 5월 14일자. 메인 워크스테이션보다는 테스트·키오스크·서브 터미널 용도가 현실적.
출처: news.hada.io/topic?id=29622원문 보기 →
FIG-0021:1
40radar
FIG-0021:1
#0003
#0003기타 GeekNews그저께
텍스트가 필요해질 때까지 `SwiftUI`로 버티기
Stay Native Until Text Forces Your Hand
40radar
SwiftUI만으로 Markdown 채팅 UI 성능은 버틸 수 있지만, 문서 전체 선택에서 한계가 온다. NSTextView 전환은 복잡도와 CPU 비용을 같이 끌고 와 신중해야 함.
- SwiftUI 기반 Markdown 채팅 UI는 기본 성능이 나온다. 문제는 채팅 앱에서 자주 필요한 문서 전체 선택 지원.
- NSTextView와 TextKit 2로 옮기면 텍스트 제어는 좋아지지만, SwiftUI 테스트·성능 작업을 다시 짊어진다.
- 스트리밍 입력에서 CPU 스파이크가 생길 수 있다. LLM 채팅 UI는 증분 렌더링 벤치마크부터 잡는 게 맞다.
출처: news.hada.io/topic?id=29602원문 보기 →
FIG-0031:1
40radar
FIG-0031:1

`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원

// related

Hugging Face가 `PapersWithCode`를 AI 파싱 기반으로 부활

`rkdebian`, 80달러 `RK3562` Android 태블릿을 Debian 워크스테이션으로 전환

텍스트가 필요해질 때까지 `SwiftUI`로 버티기