telexed ~ c / 2d3a0f0f-4a1radar:80 · infra_saasLIVE
← 피드로
NO.
#2d3a0f0f
분야
인프라·SaaS
출처
vercel_blog
게재
2026-05-15 00:00:00
중요도
★ 8/10 — radar 80
`AI Gateway`, 요청마다 공급자 우선순위 직접 고른다
FIG-0231:1

`AI Gateway`, 요청마다 공급자 우선순위 직접 고른다

`AI Gateway` adds request-time provider ranking controls

기본 혼합 랭킹 대신 요청 시점에 가격·첫 토큰 지연·처리량 기준으로 바로 갈아탈 수 있다. 같은 모델에 공급자가 많은 구간에선 마진과 체감 속도를 코드 수정 없이 즉시 최적화한다.

[ 요점 ]
  1. 설정은 providerOptions.gateway.sort'cost', 'ttft', 'tps' 중 하나를 넣으면 끝. 비용 절감, 응답성, 긴 출력 속도 중 우선순위를 명확히 줄 수 있다.
  2. 랭킹 계산이 요청 시점에 이뤄진다. 새 공급자 추가, 가격 변동, 관측 지연 변화가 생겨도 라우팅이 자동 반영돼 운영 부담이 적다.
  3. 시도 순서는 정렬 결과를 그대로 따른다. 상위 공급자가 죽었을 때만 다음 후보로 넘어가서, 의도치 않은 고비용 우회가 줄어든다.
  4. Zero Data Retention과 함께 쓸 수 있고 order와도 조합된다. 고정하고 싶은 공급자는 앞에 두고 나머지만 비용·속도로 재정렬하면 된다.
  5. 응답 메타데이터에 sort 블록이 붙는다. 어떤 후보를 왜 앞세웠는지, 건강도 이슈로 누가 밀렸는지까지 보여줘 디버깅이 쉬워진다.
원문vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway원문 보기 →

// related