`AI Gateway`, 요청마다 공급자 우선순위 직접 고른다
기본 혼합 랭킹 대신 요청 시점에 가격·첫 토큰 지연·처리량 기준으로 바로 갈아탈 수 있다. 같은 모델에 공급자가 많은 구간에선 마진과 체감 속도를 코드 수정 없이 즉시 최적화한다.
- 설정은
providerOptions.gateway.sort에'cost','ttft','tps'중 하나를 넣으면 끝. 비용 절감, 응답성, 긴 출력 속도 중 우선순위를 명확히 줄 수 있다. - 랭킹 계산이 요청 시점에 이뤄진다. 새 공급자 추가, 가격 변동, 관측 지연 변화가 생겨도 라우팅이 자동 반영돼 운영 부담이 적다.
- 시도 순서는 정렬 결과를 그대로 따른다. 상위 공급자가 죽었을 때만 다음 후보로 넘어가서, 의도치 않은 고비용 우회가 줄어든다.
Zero Data Retention과 함께 쓸 수 있고order와도 조합된다. 고정하고 싶은 공급자는 앞에 두고 나머지만 비용·속도로 재정렬하면 된다.- 응답 메타데이터에
sort블록이 붙는다. 어떤 후보를 왜 앞세웠는지, 건강도 이슈로 누가 밀렸는지까지 보여줘 디버깅이 쉬워진다.