NO.: #28bf2b62
분야: 모델·API
출처: Simon Willison
게재: 2026-04-27 23:46:56
중요도: ★ 6/10 — radar 60
원문: simonwillison.net/2026/Apr/27/vibevoice/#atom-everything

Microsoft VibeVoice: 화자 분리가 내장된 오픈소스 음성 인식 모델

Microsoft VibeVoice: Open-Source ASR with Built-In Speaker Diarization

이 글은 Microsoft의 MIT 라이선스 음성 인식 모델 VibeVoice를 실제로 돌려본 기록으로, 화자 분리가 모델에 기본 내장되어 있고 Apple Silicon 환경에서 로컬 실행이 가능하다는 점이 핵심입니다. 인디 개발자 입장에서는 외부 API 비용과 종속성을 줄일 수 있다는 장점이 크지만, 장시간 오디오 처리 시 모델 용량과 메모리 요구량이 매우 커서 고사양 장비가 사실상 필요합니다.

[ 요점 ]

인디 개발자에게 가장 큰 의미는 MIT 라이선스와 내장 화자 분리입니다. 별도 diarization 파이프라인이나 유료 STT API 의존도를 낮출 수 있습니다.
실사용 장벽은 성능보다 자원 요구량입니다. 4bit MLX 변환본도 5.71GB이고, 장시간 처리 시 메모리 사용량이 30GB 이상, 관찰 기준으로는 60GB대까지 올라갈 수 있습니다.
긴 오디오는 바로 되긴 하지만 기본 설정으로는 부족합니다. 기본 --max-tokens는 약 25분 분량이라 1시간급 파일은 토큰 설정을 늘려야 합니다.
적합한 활용처는 팟캐스트 전사, 인터뷰 기록, 회의록 같은 장문 오디오 자동화입니다. 다만 저사양 사용자 대상 SaaS보다는, 고사양 맥을 가진 개발자의 로컬 워크플로우에 더 잘 맞습니다.

원문simonwillison.net/2026/Apr/27/vibevoice/#atom-everything원문 보기 →

// related

#0001
#0001모델·API Simon Willison10시간 전
`llm-gemini` `0.32`, `gemini-3.5-flash` 지원 추가
`llm-gemini` `0.32` adds `gemini-3.5-flash`
50radar
llm-geminiLLM CLI 플러그인 — Gemini 모델을 `llm`에서 호출
Simon Willison의 llm CLI에서 Google의 새 Flash 모델을 바로 호출할 수 있게 됐다. 이미 llm 기반 스크립트를 쓰고 있다면 테스트 비용이 낮아짐.
- llm-gemini가 gemini-3.5-flash 모델명을 추가했다. 기존 llm CLI 워크플로우에서 별도 래퍼 없이 바로 비교 가능.
- 변경 범위는 모델 alias 1개 추가에 가깝다. 새 제품 기능보다는 자동화 파이프라인에 붙이는 작은 배관 업데이트.
- 요약, 추출, 콘텐츠 생성처럼 모델 교체 실험이 잦은 작업에 적합. llm 생태계를 안 쓰면 당장 영향은 제한적.
출처: simonwillison.net/2026/May/19/llm-gemini-2/#atom-everyth원문 보기 →
50radar
PHOTO
FIG-0011:1
#0002
#0002모델·API Simon Willison11시간 전
`Gemini 3.5 Flash`, 가격 3~6배 올리고 전면 배포
`Gemini 3.5 Flash` ships broadly with a 3-6x price jump
90radar
무료 제품까지 새 모델로 깔았지만 API 단가는 입력 $1.50/M·출력 $9/M까지 올라갔다. 대량 출력형 기능은 비용 재계산이 먼저.
- 모델 ID는 gemini-3.5-flash; 1,048,576 입력 토큰과 65,536 출력 토큰 지원. 긴 문서 처리에는 강함.
- 가격은 3 Flash Preview의 3배, 3.1 Flash-Lite의 6배. Flash 계열을 싼 기본값으로 두기 어려워졌다.
- Interactions API 베타는 서버 측 히스토리 관리가 핵심. 에이전트 백엔드에서 대화 상태 처리 코드가 줄어든다.
- 이번 릴리스에는 computer use가 없다. 브라우저·데스크톱 제어 워크플로우라면 모델 교체만으로는 부족함.
- 3.5 Pro는 다음 달 예고. 더 비쌀 가능성이 높아 모델 라우팅과 출력 토큰 상한을 먼저 잡아야 한다.
출처: simonwillison.net/2026/May/19/gemini-35-flash/#atom-ever원문 보기 →
FIG-0021:1
90radar
FIG-0021:1
#0003
#0003모델·API GeekNews13시간 전
`Gemini 3.5 Flash`, 장기 에이전트·코딩 작업 겨냥
`Gemini 3.5 Flash` targets long-running agents and coding
100radar
속도형 라인에서 장기 에이전트·코딩 작업을 정면으로 겨냥했다. Gemini 기반 자동화 파이프라인은 품질/지연시간 기준을 다시 잡을 만함.
- 첫 Gemini 3.5 모델로 프런티어급 지능과 실행 능력을 결합. 장기 에이전트·코딩 작업이 핵심 타깃이다.
- Flash 시리즈의 속도 포지션을 유지해, Pro급 지연시간이 부담이던 자동화 흐름에 바로 후보로 들어간다.
- Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo로 제시됐고 Gemini 3.1 Pro를 앞섰다.
출처: news.hada.io/topic?id=29670원문 보기 →
FIG-0031:1
100radar
FIG-0031:1

Microsoft VibeVoice: 화자 분리가 내장된 오픈소스 음성 인식 모델

// related

`llm-gemini` `0.32`, `gemini-3.5-flash` 지원 추가

`Gemini 3.5 Flash`, 가격 3~6배 올리고 전면 배포

`Gemini 3.5 Flash`, 장기 에이전트·코딩 작업 겨냥