Telexed

telexed ~ home★4 이상 · 매시 갱신 · UTC+09LIVE

TELEXED// 1인 사업자 시그널 레이더 · 412호

AI 분야의 주요 소식 · 솔로 사업자에게 도움 되는 것만5 / 412

FILTER[전체][에이전트·도구][모델·API][생성형 미디어][인프라·SaaS][ASO·그로스][인디 비즈니스][아이디어 시그널][기타][★6+ high-signal]

r/LocalLLaMA ✕필터 해제

5월 18일 (월)1 dispatches

#0412
#0412에이전트·도구 r/LocalLLaMA어제
`SmallCode`, 활성 4B 로컬 모델로 코딩 에이전트 벤치 **87/100** 주장
`SmallCode` hits 87/100 coding-agent tasks with an active 4B model
50radar
SmallCode로컬 코딩 에이전트 — 작은 모델용 복합 툴 설계
작은 로컬 모델의 약점을 모델 교체가 아니라 툴 설계로 막는다. 벤치마크는 자체 수치지만, 에이전트 하네스 패턴은 바로 재사용할 만함.
- 복합 툴이 파일 탐색→읽기→수정→검증을 한 번에 묶는다. 작은 모델이 3회 이상 툴 호출에서 흐트러지는 문제를 줄이는 방식.
- 코드 작성 직후 컴파일·린트를 돌리고 오류를 다시 넣는다. 첫 시도 정확도보다 실패 복구 루프가 성능을 만든다.
- 같은 실패가 반복되면 큰 작업을 더 잘게 쪼갠다. “200줄 파일 수정”을 “45번째 줄 수정”으로 낮추는 식.
- OpenAI·Claude 키가 있으면 막힌 작업만 클라우드 모델로 넘긴다. 로컬 비용 절감과 완주율 사이의 타협안.
출처: www.reddit.com/r/LocalLLaMA/comments/1tgecrq/i_built_a_c원문 보기 →
FIG-4121:1
50radar
FIG-4121:1

5월 17일 (일)1 dispatches

#0411
#0411기타 r/LocalLLaMA그저께
`llama.cpp` 포크, 텐서 분할에서 양자화 KV 캐시 지원
`llama.cpp` fork enables quantized KV cache with tensor split
50radar
llama.cpp로컬 LLM 추론 엔진 — GGUF·CUDA 백엔드 지원
텐서 병렬을 쓰면서 q8_0 KV 캐시를 유지해 듀얼 GPU 로컬 추론 병목을 줄인다. 아직 포크라 운영용보다 실험용으로 바로 검증할 만함.
- Qwen3.5 27B Q4_K_M 생성 성능은 -sm tensor 적용 시 30.05 tok/s, 미적용 21.22 tok/s로 측정됐다.
- 핵심은 -ctk q8_0 -ctv q8_0와 텐서 분할을 같이 쓰는 것. 기존 비양자화 KV 캐시 제약을 우회한다.
- 실사용 체감은 3060 12GB + 4070 Super 12GB 조합에서 약 25 tok/s → 40 tok/s 수준으로 제시됐다.
- MoE 모델은 현재 -sm tensor 이슈가 있어 제외. Qwen 27B/9B 같은 dense 모델 테스트가 현실적이다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tflngz/dual_gpu_ll원문 보기 →
50radar
PHOTO
FIG-4111:1

5월 16일 (토)1 dispatches

#0410
#0410에이전트·도구 r/LocalLLaMA3일 전
`Qwen3.6-35B-A3B`, `Terminal-Bench 2.0`에서 **24.6%** 기록
`Qwen3.6-35B-A3B` reaches **24.6%** on `Terminal-Bench 2.0`
50radar
Qwen3.6오픈 LLM 모델 — 터미널 에이전트 벤치마크 등재
작은 오픈 모델 조합이 하드 터미널 벤치에서 더 큰 에이전트 구성을 일부 앞섰다. 로컬 코딩 에이전트 실험감은 생겼지만, 아직은 벤치마크 신호에 가깝다.
- little-coder x Qwen3.6-35B-A3B가 24.6% ±3.2를 기록해 Gemini CLI의 Gemini 2.5 Pro 19.6%를 넘었다.
- Terminus 2의 Qwen3-Coder-480B 23.9%도 근소하게 앞섰다. 모델 크기보다 스캐폴드 설계가 결과를 뒤집을 수 있음.
- Qwen3.5-9B는 9.2%. sub-10B 로컬 모델도 어려운 에이전트 벤치에서 측정 가능한 성능 구간에 들어왔다.
- 실서비스 대체 근거로 쓰기엔 이르다. API 비용 절감 후보로 보되, 본인 코드베이스 작업에서 재검증해야 함.
출처: www.reddit.com/r/LocalLLaMA/comments/1temio0/qwen3635ba3원문 보기 →
50radar
PHOTO
FIG-4101:1

5월 15일 (금)1 dispatches

#0409
#0409기타 r/LocalLLaMA5일 전
검증 가능한 보상만으로 `Qwen 2.5` 7B를 **112/164**까지 끌어올린 자기학습 실험
Self-Training With Verifiable Rewards Pushes `Qwen 2.5` 7B to **112/164** on HumanEval
50radar
문제 생성, 테스트 작성, 오답-정답 페어 축적까지 한 모델이 스스로 돌며 코딩 성능을 크게 끌어올렸다. H100 95분, $3.50 급이면 재현 장벽도 낮아 실험용 파이프라인으로 바로 참고할 만하다.
- 구성은 단순하다. 모델이 문제와 테스트를 만들고 여러 답안을 푼 뒤 (오답 시도, 정답 시도)만 남겨 Python 실행기로 채점했다.
- 채점 버그를 고친 뒤 Qwen 2.5 7B가 HumanEval 25 → 112/164로 상승했다. 로컬 모델 글치고 넘기기 어려운 벤치마크 변화다.
- Qwen 2.5 14B는 자체 채굴 페어 100개만으로 학습했고, H100 기준 95분, $3.50에 끝났다. 소규모 튜닝 예산 감각이 선명하다.
- 길이와 형식만 맞춘 가짜 데이터로 학습했을 때는 25/164로 제자리였다. 성능 상승이 단순 포맷 적응이 아니라 수정 신호에서 왔다는 뜻이다.
출처: www.reddit.com/r/LocalLLaMA/comments/1tde3m1/i_let_a_sma원문 보기 →
50radar
PHOTO
FIG-4091:1

5월 6일 (수)1 dispatches

#0408
#0408에이전트·도구 r/LocalLLaMA2주 전
`llama.cpp` MTP로 `Qwen 3.6 27B` 로컬 코딩 에이전트 활용성이 크게 올라감
`llama.cpp` MTP makes `Qwen 3.6 27B` far more usable for local coding agents
50radar
llama.cpp로컬 LLM 실행 엔진 — 경량·고성능 추론/서빙
직접 빌드한 llama.cpp에 MTP와 turbo4 KV 캐시를 얹어 속도, 메모리, 컨텍스트를 한 번에 끌어올렸다. 설정은 번거롭지만 로컬 에이전트 코딩이 취미 세팅에서 실사용 후보로 넘어왔다.
- --spec-type mtp --spec-draft-n-max 5 적용 시 M2 Max 96GB에서 28 tok/s, 체감상 2.5배 빨라졌다.
- turbo4 KV 캐시는 기존 16-bit 대비 KV 메모리를 4분의 1 수준으로 줄여 긴 컨텍스트 유지 비용을 확 낮춘다.
- Q5_K_M와 turbo4 조합이면 48GB Apple Silicon에서 262K 컨텍스트를 노릴 수 있어 대형 코드베이스 작업 폭이 넓어진다.
- llama-server로 OpenAI·Anthropic 호환 엔드포인트를 바로 열 수 있고, 깨지던 chat template도 함께 손봐 기존 도구 연결 부담이 줄었다.
출처: www.reddit.com/r/LocalLLaMA/comments/1t57xuu/25x_faster_원문 보기 →
50radar
PHOTO
FIG-4081:1