telexed ~ cat / generative_media★4 이상 · 매시 갱신 · UTC+09LIVE
전체 생성형 미디어

생성형 미디어

14
오늘1 dispatches
  • `OpenShorts`, 무료 오픈소스 클립 생성기 겸 AI UGC 비디오 제작 도구

    `OpenShorts`, Free Open-Source Clip Generator for AI UGC Videos
    70radar
    OpenShorts오픈소스 영상 도구 — 롱폼을 세로 숏츠로 자동 변환

    긴 영상을 숏폼 채널용 세로 클립으로 바꾸는 작업을 셀프호스팅으로 가져온다. 반복 업로드가 많다면 편집 SaaS 비용을 줄일 수 있어 지금 테스트할 만함.

    • 셀프호스팅 오픈소스라 사용량이 늘수록 유료 클립 생성 SaaS 대비 한계비용을 낮추기 쉽다.
    • TikTok, Reels, YouTube Shorts를 직접 겨냥한다. 결과물이 곧 배포 채널 포맷으로 이어짐.
    • Clip Generator는 롱폼 영상을 9:16 숏츠로 변환하고, 좋은 순간 포착과 얼굴 트래킹을 맡는다.
    • 세 가지 도구를 한 번에 묶었다. 클리핑·리프레이밍·UGC 제작을 따로 쓰던 워크플로우 대체 후보.
    출처: news.hada.io/topic?id=29715원문 보기 →
어제5 dispatches
  • `Remotion` + `Claude Code`로 런치 영상 만드는 워크플로우

    `Remotion` + `Claude Code` launch-video workflow, no editor required
    50radar
    RemotionReact 영상 프레임워크 — JSX를 MP4로 렌더링

    런치 영상을 디자인 툴 없이 React 컴포넌트처럼 만들고 mp4로 뽑는 방식이다. 비용은 낮고 반복 수정이 빨라, 제품 공개용 영상 제작에 바로 써먹을 만함.

    • Remotion은 JSX를 영상으로 렌더링한다. Claude Code가 장면과 애니메이션 코드를 생성하기 쉬운 구조.
    • 모션 품질은 거창한 툴보다 규칙에서 나온다. 크로스페이드, 단일 easing, grain, vignette만으로 티가 덜 난다.
    • 오디오는 배경음 하나로 끝내지 말고 챕터 전환, 타이핑, CTA에만 SFX를 얹는 편이 낫다.
    • 장면이 3초 안에 역할을 못 하면 삭제. 첫 컷이 길어지는 문제를 줄이는 실전 기준.
    출처: www.reddit.com/r/ClaudeAI/comments/1tik0qe/coffee_claude원문 보기 →
  • `Remove-AI-Watermarks`, AI 이미지 워터마크 제거용 CLI·라이브러리

    `Remove-AI-Watermarks`, CLI and Python Library for Cleaning AI Image Watermarks
    50radar
    Remove-AI-WatermarksCLI·Python 라이브러리 — AI 워터마크·메타데이터 일괄 제거

    생성 이미지 정리 작업이 CLI와 Python 파이프라인으로 들어왔다. 메타데이터 통제에는 쓸모 있지만, 보이는 워터마크 제거는 약관·심사 리스크가 큼.

    • Gemini, ChatGPT/DALL-E, Stable Diffusion, Adobe Firefly, Midjourney 생성물을 대상으로 잡아 주요 이미지 생성 도구를 넓게 커버한다.
    • 보이는 워터마크, 보이지 않는 워터마크, AI 생성 메타데이터를 한 번에 처리한다. 대량 에셋 후처리 자동화에 맞는 형태.
    • 주의할 지점은 보이는 워터마크 제거다. 제품 이미지에 쓰면 생성 도구 약관, 스토어 심사, 저작권 이슈가 바로 붙는다.
    출처: news.hada.io/topic?id=29702원문 보기 →
  • OpenAI, AI 이미지에 Google `SynthID` 워터마크 도입

    OpenAI Adds Google's `SynthID` Watermarking to AI Images
    60radar
    SynthIDAI 워터마킹 기술 — 생성 콘텐츠 식별용 신호 삽입

    메타데이터·암호서명·워터마크·공개 검증을 겹친 출처 확인 구조다. 생성 이미지 납품·UGC 검수에는 쓸모 있지만, 변환 손상까지 완전히 막진 못함.

    • C2PA는 생성·편집 맥락을 메타데이터와 암호학적 서명으로 묶어 이동시킨다. 단, 변환 과정에서 깨질 수 있음.
    • SynthID 워터마크는 메타데이터가 사라져도 남을 가능성이 있어, 이미지 출처 확인의 보조 안전장치가 된다.
    • 공개 검증 도구가 붙으면 마켓플레이스, UGC 서비스, 클라이언트 납품물에서 AI 생성 여부 확인 비용이 낮아진다.
    출처: news.hada.io/topic?id=29700원문 보기 →
  • `Google Workspace`, 음성 작성·`Google Pics`·`AI Inbox` 업데이트

    `Google Workspace` adds voice creation, `Google Pics`, and `AI Inbox` updates
    50radar

    메일·문서·메모 작성 흐름에 음성 입력과 디자인 생성이 들어온다. 상세 스펙은 부족하지만, 콘텐츠 운영 시간을 줄일 작은 생산성 업데이트로 볼 만함.

    • Gmail, Docs, Keep에 음성 기능이 추가된다. 초안 작성·아이디어 캡처처럼 짧은 입력 작업의 마찰이 줄어든다.
    • 새 디자인 도구 Google Pics가 공개됐다. 빠른 배너·썸네일·앱 홍보 소재 제작 쪽 활용 가능성이 크다.
    • AI Inbox도 업데이트된다. 메일 분류·응답 자동화가 강화될 신호지만, 제어권·정확도 정보는 아직 없다.
    출처: blog.google/products-and-platforms/products/workspace/wo원문 보기 →
  • `Nova3D`, `Blender Python`으로 관절형 3D 오브젝트 생성

    `Nova3D` Generates Articulated 3D Objects via Blender Code
    50radar
    Nova3D오픈소스 3D 생성 툴 — 부품별 GLB와 회전축 보존

    메시 덩어리 대신 LLM이 Blender Python 장면 그래프를 컴파일해 분리된 부품과 회전축을 만든다. 로컬 모델은 변환 행렬에서 아직 자주 깨져, 당장 제품화보단 패턴 참고용.

    • Nova3D는 최종 결과를 multi-part GLB로 내보내며, transform node와 pivot axis를 보존해 문·힌지·회전부를 살릴 수 있음.
    • 핵심 접근은 diffusion이 아니라 prompt-to-code. 전체 메시 재생성 대신 특정 scene graph node를 수정하는 구조다.
    • 프론트엔드는 FlutterThree.js viewport 조합. 브라우저에서 렌더링과 노드 조작을 맡기는 형태라 웹 툴화 여지가 있다.
    • 로컬 모델은 복잡한 Blender matrix math를 자주 환각한다. 작성자는 BYOK Gemini를 권장해, 완전 로컬 워크플로우는 아직 불안정.
    출처: www.reddit.com/r/LocalLLaMA/comments/1thucyj/a_tool_i_bu원문 보기 →
5월 19일 (화)1 dispatches
  • OpenAI, `Content Credentials`·`SynthID`로 AI 미디어 출처 검증 강화

    OpenAI Expands AI Media Provenance With `Content Credentials` and Verification
    50radar

    생성 미디어에 자격 증명, 워터마킹, 검증 도구를 붙여 출처 신뢰를 높인다. 이미지·영상 SaaS라면 출처 표시 UX를 제품 요구사항으로 봐야 함.

    • Content Credentials, SynthID, 검증 도구가 한 묶음으로 제시됐다 — 생성 결과물의 신뢰 레이어가 워크플로우 안쪽으로 들어오는 흐름.
    • 가장 직접적인 적용처는 마켓플레이스, UGC 편집기, 클라이언트 납품형 미디어 툴. 원본 증명이 CS·신뢰 비용을 줄인다.
    • 모델 성능이나 API 가격 변화는 아니다. 당장 마이그레이션할 일은 없고, AI 미디어 제품의 기본 UX 체크리스트에 넣을 신호.
    출처: openai.com/index/advancing-content-provenance원문 보기 →
5월 18일 (월)1 dispatches
  • 기획부터 실행까지 묶는 크리에이티브 에이전트 `Luma AI`

    `Luma AI` as a Creative Agent From Planning to Execution
    50radar
    Luma AIAI 크리에이티브 에이전트 — 자체 생성 모델 기반 워크플로우

    소재 생성에 머물던 크리에이티브 AI를 기획·조율 단계까지 확장한다. 자체 모델을 에이전트 흐름에 넣어 반복 콘텐츠 제작 자동화에 테스트할 가치 있음.

    • Luma AI는 단순 이미지·영상 생성기가 아니라 AI 크리에이티브 에이전트 플랫폼으로 소개된다.
    • 자체 생성 모델을 오래 운영해왔고, 에이전트 안에서도 그 모델을 써 워크플로우 연결성이 강점이다.
    • 기획, 소재 생성, 변형, 조율을 한 흐름으로 묶는 방향이라 광고·SNS 소재 반복 제작에 맞다.
    • 단일 결과물 품질보다 운영 흐름 개선이 포인트. 기존 생성형 미디어 툴과 병행 비교해볼 만함.
    출처: yozm.wishket.com/magazine/detail/3740원문 보기 →
5월 17일 (일)1 dispatches
  • `SANA-WM`, 1분 720p 비디오용 26억 파라미터 오픈소스 월드 모델

    `SANA-WM`, a 2.6B open-source world model for 1-minute 720p video
    50radar
    SANA-WM오픈소스 월드 모델 — 이미지와 카메라 궤적으로 긴 영상 생성

    이미지 한 장과 카메라 궤적만으로 긴 장면 이동을 제어하는 쪽에 초점이 있다. 제품 목업·게임 씬 프리뷰 실험 신호는 좋지만, 당장 SaaS 기능으로 붙이긴 무겁다.

    • 입력은 이미지 1장 + 6-DoF 카메라 궤적. 텍스트 영상 생성보다 장면 내부 이동 제어에 강점이 있음.
    • Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 섞어 긴 롤아웃 일관성을 잡는다.
    • 단일 GPU에서 720p 1분 생성이 가능하다는 점은 실험 비용을 낮춘다. 실제 적용은 가중치·라이선스·추론 세팅 확인이 관건.
    출처: news.hada.io/topic?id=29572원문 보기 →
5월 15일 (금)1 dispatches
  • `Supertonic 3` 초경량 온디바이스 TTS 출시, **31개 언어** 및 감정 태그 지원

    `Supertonic 3` launches ultra-light on-device TTS with 31 languages and emotion tags
    60radar
    Supertonic 3온디바이스 TTS 엔진 — 감정 태그와 다국어 지원

    클라우드 호출 없이도 웃음·숨소리·비명 같은 표현을 텍스트 태그로 제어할 수 있게 됐다. TTS를 앱 안에 직접 넣고 싶은 경우, 지연시간과 비용을 함께 줄이는 선택지다.

    • 한국어 포함 31개 언어를 지원해 다국어 음성 기능을 붙일 때 서버 의존도를 크게 낮춘다.
    • <laugh>, <breath>, <scream>10종 태그를 텍스트에 삽입하는 방식이라 대사 연출 자동화에 바로 연결된다.
    • 발음 정확도를 끌어올리고 단어 반복·누락 실패를 줄여, 데모보다 실제 배포 품질 쪽 개선 폭이 크다.
    • 음성 복제 성능도 개선됐다. 캐릭터 보이스, 안내 음성, 내레이션을 기기 내부에서 처리하는 구성이 쉬워진다.
    출처: news.hada.io/topic?id=29522원문 보기 →
5월 14일 (목)1 dispatches
  • `Violin`: 오픈소스 AI 영상 번역 스택

    `Violin`: open-source AI video translation stack
    50radar
    Violin오픈소스 영상 번역 도구 — `ASR`·번역·`TTS` 통합

    영상 현지화에 필요한 ASR·번역·TTS를 한 번에 묶었다. 벤더 여러 개를 직접 이어붙일 필요가 줄어, 다국어 영상 재활용이 잦다면 지금 써볼 만함.

    • 음성 인식, LLM 번역, 음성 합성을 한 파이프라인으로 묶어 영상 번역용 글루 코드와 운영 복잡도를 줄인다.
    • 차별점은 모델 성능보다 오픈소스라는 점에 있다. 구성 요소 교체, 자체 호스팅, 비용 통제가 가능한 구조다.
    • 자막만 뽑는 용도보다 더빙·현지화 재가공에 맞는다. 기존 영상 자산을 여러 언어로 돌릴 때 효율이 커진다.
    출처: www.together.ai/blog/violin-open-source-translation-skil원문 보기 →
5월 13일 (수)1 dispatches
  • `SuperSplat`, 브라우저에서 바로 쓰는 `3D Gaussian Splat` 에디터

    `SuperSplat`: browser-based editor for 3D Gaussian Splats
    50radar
    SuperSplat3D Gaussian Splat 에디터 — 브라우저에서 편집·최적화·배포

    설치 없이 브라우저에서 3D Gaussian Splat을 보고 수정하고 최적화한 뒤 배포까지 처리한다. 무료 오픈소스라 워크플로에 바로 끼워 넣기 좋지만, 3D 캡처·공간형 콘텐츠를 다루지 않으면 우선순위는 높지 않다.

    • 기능 범위가 넓다. 확인, 편집, 최적화, 퍼블리싱을 한곳에서 처리해 splat 파이프라인 전환 비용을 줄인다.
    • 실행 방식이 가볍다. 다운로드 없이 브라우저에서 돌아가니 내부 툴 검증이나 데모 공유가 훨씬 빠르다.
    • 로컬 개발 진입도 낮다. Node.js 18+에서 npm installnpm run develop만으로 localhost:3000까지 바로 띄운다.
    • 다국어 구조가 이미 잡혀 있다. static/localessrc/ui/localization.ts만 건드리면 로컬라이징이나 화이트라벨 확장이 쉽다.
    출처: github.com/playcanvas/supersplat원문 보기 →
5월 12일 (화)1 dispatches
  • `Voice Finder`, **600+** TTS 보이스를 빠르게 찾는 검색 도구

    `Voice Finder`: search and audition **600+** TTS voices faster
    50radar
    Voice FinderTTS 보이스 검색 도구 — 프롬프트·오디오로 매칭

    보이스 고르는 과정을 수동 탐색에서 프롬프트·참조 오디오 검색으로 바꿨다. 음성 UX가 들어가는 앱이면 후보 압축 속도는 빨라지지만, 모델 성능 자체가 바뀌는 업데이트는 아니다.

    • Together AI TTS 모델 전반의 600+ 보이스를 한 번에 검색·필터링·청음한다. 프리셋을 하나씩 뒤지던 시간을 줄여준다.
    • 자연어 프롬프트로 톤·스타일을 찾는 방식이라 초기 프로토타입 단계에서 보이스 탐색 비용을 낮춘다.
    • 오디오 샘플 업로드로 유사한 목소리를 매칭할 수 있다. 레퍼런스가 있는 앱 리브랜딩이나 캐릭터 음성 교체에 바로 맞는다.
    • 새 음성 모델 출시가 아니라 탐색 레이어 추가다. 이미 Together AI TTS를 쓰고 있다면 체감이 크고, 아니면 우선순위는 낮다.
    출처: www.together.ai/blog/introducing-voice-finder-a-new-tool원문 보기 →
5월 8일 (금)1 dispatches
  • `ACE-Step UI`, `ACE-Step 1.5`용 로컬 음악 생성 프런트엔드

    `ACE-Step UI`: polished local frontend for `ACE-Step 1.5` music generation
    50radar
    ACE-Step UI음악 생성 UI — ACE-Step 로컬 실행을 쉽게 함

    로컬 음악 생성 모델을 바로 쓸 수 있게 다듬은 UI다. GPU만 받쳐주면 무료·무제한·로컬 실행 조합이 강해서, 구독형 음악 생성 툴 대체재로 지금 시험해볼 만하다.

    • ACE-Step 1.5 위에 스포티파이풍 UI를 얹어 풀송, 연주곡, 가사 편집, 배치 생성, 프롬프트 재사용까지 한 화면에서 처리한다.
    • 비용 구조가 가장 직접적이다. 월 구독 없음, 큐 제한 없음, 결과물 소유권 유지라 반복 생성 많이 돌릴수록 체감 차이가 커진다.
    • 단순 프롬프트 입력기를 넘어서 레퍼런스 오디오, 오디오 커버, 구간 리페인팅, 시드 고정, 추론 스텝 조절까지 넣었다.
    • 걸림돌도 분명하다. 클라우드형 Suno 대체라기보다, 로컬 GPU 운용이 가능한 쪽에서 비용을 시간으로 바꾸는 선택지에 가깝다.
    출처: github.com/fspecii/ace-step-ui원문 보기 →