telexed ~ c / 28bf2b62-e78radar:60 · model_apiLIVE
← 피드로
NO.
#28bf2b62
분야
모델·API
출처
Simon Willison
게재
2026-04-27 23:46:56
중요도
★ 6/10 — radar 60

Microsoft VibeVoice: 화자 분리가 내장된 오픈소스 음성 인식 모델

Microsoft VibeVoice: Open-Source ASR with Built-In Speaker Diarization

이 글은 Microsoft의 MIT 라이선스 음성 인식 모델 VibeVoice를 실제로 돌려본 기록으로, 화자 분리가 모델에 기본 내장되어 있고 Apple Silicon 환경에서 로컬 실행이 가능하다는 점이 핵심입니다. 인디 개발자 입장에서는 외부 API 비용과 종속성을 줄일 수 있다는 장점이 크지만, 장시간 오디오 처리 시 모델 용량과 메모리 요구량이 매우 커서 고사양 장비가 사실상 필요합니다.

[ 요점 ]
  1. 인디 개발자에게 가장 큰 의미는 MIT 라이선스와 내장 화자 분리입니다. 별도 diarization 파이프라인이나 유료 STT API 의존도를 낮출 수 있습니다.
  2. 실사용 장벽은 성능보다 자원 요구량입니다. 4bit MLX 변환본도 5.71GB이고, 장시간 처리 시 메모리 사용량이 30GB 이상, 관찰 기준으로는 60GB대까지 올라갈 수 있습니다.
  3. 긴 오디오는 바로 되긴 하지만 기본 설정으로는 부족합니다. 기본 --max-tokens는 약 25분 분량이라 1시간급 파일은 토큰 설정을 늘려야 합니다.
  4. 적합한 활용처는 팟캐스트 전사, 인터뷰 기록, 회의록 같은 장문 오디오 자동화입니다. 다만 저사양 사용자 대상 SaaS보다는, 고사양 맥을 가진 개발자의 로컬 워크플로우에 더 잘 맞습니다.
원문simonwillison.net/2026/Apr/27/vibevoice/#atom-everything원문 보기 →

// related