Vertex AI で Gemini 等の生成 AI モデルに対し、月額固定料金で専用スループットを確保する課金プラン。GSU(Generative AI Scale Unit)単位で契約し、共有枠から独立した安定したレイテンシ・スループット・SLA を得る。
概要
通常の従量課金(Standard PayGo)は共有プールから推論リソースを使うため、グローバル全体の負荷状況によりレイテンシが変動する。Provisioned Throughput(PT)は専用枠を購入することで、変動を排除し SLA を保証する仕組み。
Standard PayGo との比較
| 項目 | Standard PayGo | Provisioned Throughput |
|---|---|---|
| 料金体系 | 使った分だけ | 月額固定(GSU 単位) |
| スループット | 共有・変動あり | 専用・保証あり |
| レイテンシ | 変動あり | 安定 |
| コスト予測 | 困難 | 確定 |
| 最低契約期間 | なし | 1 週間〜1 年 |
| キャンセル | いつでも | 契約期間中は不可 |
PT が向いているケース
- ✅ マルチテナントで安定した応答速度が必要(顧客 SLA 要件)
- ✅ 月額コストを固定したい(経理・予算管理)
- ✅ リアルタイムチャットボット・AI エージェントで常時負荷
- ✅ 高スループットが常時必要(30,000 QPM 以上が目安)
PT が不要なケース
- ❌ バッチ処理がメイン → Batch API で 50% オフのほうが安い
- ❌ トラフィックが不安定・予測困難
- ❌ 開発・検証段階
ハイブリッド構成(コスト最適形)
リアルタイム部分 → PT(専用枠 + SLA)
夜間バッチ・大量処理 → Batch API(50% オフ)
変動するサブ機能 → Standard PayGo(柔軟性)
関連記事
- Vertex AI 移行ガイド — シリーズ第 5 回(PT の判断基準)
- Gemini API モデル移行ガイド — モデル世代変更時の PT 再割当