NO.: #76422314
분야: 기타
출처: r/LocalLLaMA
게재: 2026-05-14 22:55:05
중요도: ★ 5/10 — radar 50
원문: www.reddit.com/r/LocalLLaMA/comments/1tde3m1/i_let_a_small_model_train_on_its_own_mistakes_it/

검증 가능한 보상만으로 `Qwen 2.5` 7B를 112/164까지 끌어올린 자기학습 실험

Self-Training With Verifiable Rewards Pushes `Qwen 2.5` 7B to **112/164** on HumanEval

문제 생성, 테스트 작성, 오답-정답 페어 축적까지 한 모델이 스스로 돌며 코딩 성능을 크게 끌어올렸다. H100 95분, $3.50 급이면 재현 장벽도 낮아 실험용 파이프라인으로 바로 참고할 만하다.

[ 요점 ]

구성은 단순하다. 모델이 문제와 테스트를 만들고 여러 답안을 푼 뒤 (오답 시도, 정답 시도)만 남겨 Python 실행기로 채점했다.
채점 버그를 고친 뒤 Qwen 2.5 7B가 HumanEval 25 → 112/164로 상승했다. 로컬 모델 글치고 넘기기 어려운 벤치마크 변화다.
Qwen 2.5 14B는 자체 채굴 페어 100개만으로 학습했고, H100 기준 95분, $3.50에 끝났다. 소규모 튜닝 예산 감각이 선명하다.
길이와 형식만 맞춘 가짜 데이터로 학습했을 때는 25/164로 제자리였다. 성능 상승이 단순 포맷 적응이 아니라 수정 신호에서 왔다는 뜻이다.

원문www.reddit.com/r/LocalLLaMA/comments/1tde3m1/i_let_a_small_model_train_on_its_own_mistakes_it/원문 보기 →

// related

#0001
#0001기타 r/MachineLearning어제
Hugging Face가 `PapersWithCode`를 AI 파싱 기반으로 부활
Hugging Face revives `PapersWithCode` with AI-parsed leaderboards
50radar
PapersWithCodeAI 논문 추적 서비스 — 코드·벤치마크 자동 연결
논문 트렌드, 메서드, 인용수, 저장소, 아티팩트, 벤치마크 결과를 한곳에 다시 묶는다. 모델·라이브러리 후보를 빠르게 거르는 용도로는 지금 써볼 만함.
- 기본 랭킹은 GitHub 스타 증가 속도 기준. 인용수보다 개발자 관심이 빠르게 붙는 연구 프로젝트를 먼저 잡아낸다.
- 초기 커버리지는 Qwen 3.5, RF-DETR, DINOv3, MTEB, Open ASR Leaderboard처럼 영향 큰 항목 중심.
- 논문 페이지에 GitHub 저장소, 프로젝트 URL, 아티팩트, PDF를 자동 연결한다. 한 논문에 여러 repo도 붙일 수 있음.
- MMTEB, COCO val 2017, Terminal Bench 같은 도메인별 리더보드가 있어 모델 선택 전 1차 필터로 좋다.
- 결과 추출은 AI 에이전트가 맡지만 검증은 아직 수동. 최종 근거보다 후보군 압축 도구로 보는 게 맞음.
출처: www.reddit.com/r/MachineLearning/comments/1tgmwqr/revivi원문 보기 →
50radar
PHOTO
FIG-0011:1
#0002
#0002기타 GeekNews어제
`rkdebian`, 80달러 `RK3562` Android 태블릿을 Debian 워크스테이션으로 전환
`rkdebian` turns an $80 RK3562 Android tablet into a Debian workstation
40radar
rkdebianDebian 이미지 빌드 시스템 — Doogee U10 전용
버려질 저가 기기를 부팅 가능한 Debian 12 머신으로 바꾸는 경로가 생겼다. 특정 태블릿 전용 프리릴리스라 실전 장비보다는 저비용 실험용에 맞음.
- 대상은 Rockchip RK3562 기반 Doogee U10으로 좁다. 같은 칩셋이라도 바로 재사용 가능하다고 보면 안 됨.
- 출력물은 부팅 가능한 Debian 12 Bookworm 이미지. 앱 개발 도구라기보다 하드웨어 재활용 빌드 시스템에 가깝다.
- 공개 프리릴리스 빌드는 2026년 5월 14일자. 메인 워크스테이션보다는 테스트·키오스크·서브 터미널 용도가 현실적.
출처: news.hada.io/topic?id=29622원문 보기 →
FIG-0021:1
40radar
FIG-0021:1
#0003
#0003기타 GeekNews그저께
텍스트가 필요해질 때까지 `SwiftUI`로 버티기
Stay Native Until Text Forces Your Hand
40radar
SwiftUI만으로 Markdown 채팅 UI 성능은 버틸 수 있지만, 문서 전체 선택에서 한계가 온다. NSTextView 전환은 복잡도와 CPU 비용을 같이 끌고 와 신중해야 함.
- SwiftUI 기반 Markdown 채팅 UI는 기본 성능이 나온다. 문제는 채팅 앱에서 자주 필요한 문서 전체 선택 지원.
- NSTextView와 TextKit 2로 옮기면 텍스트 제어는 좋아지지만, SwiftUI 테스트·성능 작업을 다시 짊어진다.
- 스트리밍 입력에서 CPU 스파이크가 생길 수 있다. LLM 채팅 UI는 증분 렌더링 벤치마크부터 잡는 게 맞다.
출처: news.hada.io/topic?id=29602원문 보기 →
FIG-0031:1
40radar
FIG-0031:1

검증 가능한 보상만으로 `Qwen 2.5` 7B를 **112/164**까지 끌어올린 자기학습 실험

// related

Hugging Face가 `PapersWithCode`를 AI 파싱 기반으로 부활

`rkdebian`, 80달러 `RK3562` Android 태블릿을 Debian 워크스테이션으로 전환

텍스트가 필요해질 때까지 `SwiftUI`로 버티기

검증 가능한 보상만으로 `Qwen 2.5` 7B를 112/164까지 끌어올린 자기학습 실험