`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접

`ik_llama.cpp` pushes `Qwen3.6 35B A3B` near 110 tok/s on 12GB VRAM

MTP와 CPU 오프로딩 조합으로 컨슈머 GPU에서도 로컬 MoE가 대화형 속도까지 올라온다. 프라이빗 코딩·배치 작업엔 실험 가치 있음.

[ 요점 ]

같은 IQ4_XS 양자화에서 일반 llama.cpp 평균은 89.76 tok/s, ik_llama.cpp 샘플은 105-110 tok/s대까지 올라감.
환경은 RTX 4070 Super 12GB, Ryzen 7 9700X, 48GB DDR5. VRAM보다 CPU 오프로딩 최적화가 체감 속도를 좌우한다.
실행 옵션은 --ctx-size 131072, q8 KV cache, draft-mtp 조합. 긴 컨텍스트 로컬 추론은 여전히 메모리 세팅 의존도가 큼.
구매 판단용 벤치마크보다는 튜닝 힌트에 가깝다. 커널·양자화·포크 버전 차이로 결과가 크게 흔들릴 수 있음.

원문www.reddit.com/r/LocalLLaMA/comments/1tjh7az/110_toks_with_12gb_vram_on_qwen36_35b_a3b_and_ik/원문 보기 →

// related

#0001
#0001기타 GeekNews12시간 전
`Firefox 148`, `asm.js` 최적화 기본 비활성화
Firefox 148 Starts Turning Off `asm.js` Optimization
40radar
레거시 asm.js 코드는 계속 실행되지만 Firefox에서 빠른 경로를 잃는다. 오래된 웹 게임·연산형 데모를 유지 중이면 WebAssembly 이전만 챙기면 됨.
- Firefox 148부터 SpiderMonkey의 asm.js 최적화가 기본 비활성화되고, 관련 코드는 향후 제거 예정.
- asm.js는 JavaScript 하위 집합이라 사이트가 바로 깨지진 않는다. 리스크는 실행 실패가 아니라 성능 저하.
- 신규 프로젝트는 asm.js 타깃을 버리면 된다. 기존 Emscripten 산출물은 WebAssembly 빌드로 갈아타는 쪽이 맞음.
출처: news.hada.io/topic?id=29732원문 보기 →
FIG-0011:1
40radar
FIG-0011:1
#0002
#0002기타 GeekNews15시간 전
`TabPFN`, 테이블 데이터용 파운데이션 모델
`TabPFN`, Foundation Model for Tabular Data
50radar
TabPFN정형 데이터 ML 모델 — fit/predict로 분류·회귀 실행
분류·회귀를 scikit-learn식 fit/predict로 바로 돌린다. 작은 정형 데이터에서 ML 파이프라인 만들기 전 빠른 베이스라인으로 써볼 만함.
- 대상은 텍스트·이미지가 아니라 테이블 데이터. 이탈 예측, 리드 스코어링, 운영 데이터 분류에 맞다.
- scikit-learn과 비슷한 인터페이스라 Python 분석 코드에 붙이는 비용이 낮다.
- TabPFN-2.6은 순수 합성 데이터로 학습됐다. 실제 도메인 데이터 검증 없이 운영 투입은 이르다.
- 최초 사용 시 체크포인트를 자동 다운로드한다. 배포 환경에서는 네트워크·캐시 정책을 미리 잡아야 함.
출처: news.hada.io/topic?id=29719원문 보기 →
FIG-0021:1
50radar
FIG-0021:1
#0003
#0003기타 GeekNews19시간 전
Mini Shai-Hulud 재공격: `npm` 패키지 314개 침해
Mini Shai-Hulud Returns: 314 `npm` Packages Compromised
60radar
짧은 배포 창에도 악성 버전 수백 개가 레지스트리에 올라갔다. npm install 전 락파일·토큰·의존성 검증을 다시 봐야 할 보안 이슈.
- atool npm 계정이 2026년 5월 19일 침해됐고, 약 22분 동안 악성 배포가 이어졌다.
- 자동 배포로 약 317개 패키지에 637개 악성 버전이 올라갔다. 짧은 사고도 CI에는 바로 들어온다.
- 페이로드는 498KB 난독화 Bun 스크립트. SAP 침해 때 쓰인 Mini Shai-Hulud와 스캐너 구조·정규식이 같았다.
- 탈취 대상에 AWS 자격 증명이 포함됐다. 최근 설치 이력 확인과 토큰 회전이 우선순위다.
출처: news.hada.io/topic?id=29709원문 보기 →
FIG-0031:1
60radar
FIG-0031:1

`ik_llama.cpp`, 12GB VRAM에서 `Qwen3.6 35B A3B` 110 tok/s 근접

// related

`Firefox 148`, `asm.js` 최적화 기본 비활성화

`TabPFN`, 테이블 데이터용 파운데이션 모델

Mini Shai-Hulud 재공격: `npm` 패키지 314개 침해