telexed ~ c / 76422314-0ffradar:50 · otherLIVE
← 피드로
NO.
#76422314
분야
기타
출처
r/LocalLLaMA
게재
2026-05-14 22:55:05
중요도
★ 5/10 — radar 50

검증 가능한 보상만으로 `Qwen 2.5` 7B를 **112/164**까지 끌어올린 자기학습 실험

Self-Training With Verifiable Rewards Pushes `Qwen 2.5` 7B to **112/164** on HumanEval

문제 생성, 테스트 작성, 오답-정답 페어 축적까지 한 모델이 스스로 돌며 코딩 성능을 크게 끌어올렸다. H100 95분, $3.50 급이면 재현 장벽도 낮아 실험용 파이프라인으로 바로 참고할 만하다.

[ 요점 ]
  1. 구성은 단순하다. 모델이 문제와 테스트를 만들고 여러 답안을 푼 뒤 (오답 시도, 정답 시도)만 남겨 Python 실행기로 채점했다.
  2. 채점 버그를 고친 뒤 Qwen 2.5 7B가 HumanEval 25 → 112/164로 상승했다. 로컬 모델 글치고 넘기기 어려운 벤치마크 변화다.
  3. Qwen 2.5 14B는 자체 채굴 페어 100개만으로 학습했고, H100 기준 95분, $3.50에 끝났다. 소규모 튜닝 예산 감각이 선명하다.
  4. 길이와 형식만 맞춘 가짜 데이터로 학습했을 때는 25/164로 제자리였다. 성능 상승이 단순 포맷 적응이 아니라 수정 신호에서 왔다는 뜻이다.
원문www.reddit.com/r/LocalLLaMA/comments/1tde3m1/i_let_a_small_model_train_on_its_own_mistakes_it/원문 보기 →

// related