#0001
`TokenSpeed`, LLM 출력 속도 체감용 미니 앱
`TokenSpeed` makes LLM output speed visible
40radar
TokenSpeedHTML 데모 앱 — LLM 토큰 출력 속도 시각화
30 tokens/second 같은 성능 문구를 실제 출력 애니메이션으로 확인하게 해준다. API 모델 선택보다 UX 지연 감각과 데모 기대치를 맞추는 데 바로 쓸 만함.
- 5~800 tokens/second 범위를 시뮬레이션한다. 로컬 추론, 일반 API 스트리밍, 고속 출력의 체감 차이를 한 화면에서 비교 가능.
- 스펙표의
30 tokens/second는 감이 잘 안 온다. 실제 텍스트가 흘러나오는 속도로 보면 대기 시간이 바로 드러남. - 소스가 단일 HTML로 공개되어 있다. 모델 비교 문서, 세일즈 페이지, 온보딩 화면에 붙일 수 있는 작은 아이디어.
- 모델 성능 벤치마크는 아니다. 구매 판단보다 스트리밍 UX, 타이핑 효과, 응답 지연 기준을 맞추는 용도에 가깝다.
출처: simonwillison.net/2026/May/20/tokens-per-second/#atom-ev원문 보기 →
