Telexed

telexed ~ home★4 이상 · 매시 갱신 · UTC+09LIVE

TELEXED// 1인 사업자 시그널 레이더 · 412호

AI 분야의 주요 소식 · 솔로 사업자에게 도움 되는 것만2 / 412

FILTER[전체][에이전트·도구][모델·API][생성형 미디어][인프라·SaaS][ASO·그로스][인디 비즈니스][아이디어 시그널][기타][★6+ high-signal]

r/LocalLLaMA ✕필터 해제

5월 17일 (일)1 dispatches

#0412
#0412기타 r/LocalLLaMA그저께
`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원
`llama.cpp` fork enables quantized KV cache with tensor split
50radar
llama.cpp로컬 LLM 추론 엔진 — GGUF·CUDA 백엔드 지원
텐서 병렬을 쓰면서 q8_0 KV 캐시를 유지해 듀얼 GPU 로컬 추론 병목을 줄인다. 아직 포크라 운영용보다 실험용으로 바로 검증할 만함.
- Qwen3.5 27B Q4_K_M 생성 성능은 -sm tensor 적용 시 30.05 tok/s, 미적용 21.22 tok/s로 측정됐다.
- 핵심은 -ctk q8_0 -ctv q8_0와 텐서 분할을 같이 쓰는 것. 기존 비양자화 KV 캐시 제약을 우회한다.
- 실사용 체감은 3060 12GB + 4070 Super 12GB 조합에서 약 25 tok/s → 40 tok/s 수준으로 제시됐다.
- MoE 모델은 현재 -sm tensor 이슈가 있어 제외. Qwen 27B/9B 같은 dense 모델 테스트가 현실적이다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tflngz/dual_gpu_ll원문 보기 →
50radar
PHOTO
FIG-4121:1

5월 15일 (금)1 dispatches

#0411
#0411기타 r/LocalLLaMA5일 전
검증 가능한 보상만으로 `Qwen 2.5` 7B를 **112/164**까지 끌어올린 자기학습 실험
Self-Training With Verifiable Rewards Pushes `Qwen 2.5` 7B to **112/164** on HumanEval
50radar
문제 생성, 테스트 작성, 오답-정답 페어 축적까지 한 모델이 스스로 돌며 코딩 성능을 크게 끌어올렸다. H100 95분, $3.50 급이면 재현 장벽도 낮아 실험용 파이프라인으로 바로 참고할 만하다.
- 구성은 단순하다. 모델이 문제와 테스트를 만들고 여러 답안을 푼 뒤 (오답 시도, 정답 시도)만 남겨 Python 실행기로 채점했다.
- 채점 버그를 고친 뒤 Qwen 2.5 7B가 HumanEval 25 → 112/164로 상승했다. 로컬 모델 글치고 넘기기 어려운 벤치마크 변화다.
- Qwen 2.5 14B는 자체 채굴 페어 100개만으로 학습했고, H100 기준 95분, $3.50에 끝났다. 소규모 튜닝 예산 감각이 선명하다.
- 길이와 형식만 맞춘 가짜 데이터로 학습했을 때는 25/164로 제자리였다. 성능 상승이 단순 포맷 적응이 아니라 수정 신호에서 왔다는 뜻이다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tde3m1/i_let_a_sma원문 보기 →
50radar
PHOTO
FIG-4111:1