Gemini の非同期バッチ処理 API。通常料金の 50% オフでテキスト・マルチモーダル・Embedding を 24 時間以内に処理する。即時応答が不要な大量処理に最適。
概要
Batch API は Gemini API のコスト最適化機能で、通常料金の 50% オフで大量のリクエストを非同期処理できる。ジョブを投げて 24 時間以内(多くは数十分〜数時間)に結果が返る。
Anthropic の Message Batch API と思想は同じで、「即時性が要らないなら半額にする」というインセンティブ設計。
通常 API との比較
| 項目 | 通常 API | Batch API |
|---|---|---|
| 料金 | 標準料金 | 50% オフ |
| 応答時間 | 即時 | 24 時間以内 |
| レート制限 | 通常枠 | より高い枠 |
| 適用モデル | 全モデル | Gemini 全モデル + Embedding |
| マルチモーダル | ✅ | ✅ 同様に 50% オフ |
適用シーン
- ✅ EC: 数万 SKU の商品説明・SEO テキスト一括生成
- ✅ コールセンター: 録音データの文字起こし + 要約
- ✅ 法務: 契約書ライブラリの一括レビュー
- ✅ 動画: 学習動画 / 監視カメラの自動メタデータ付与
- ✅ RAG 構築: 数百万件の埋め込み生成
- ✅ 評価: LLM-as-a-Judge での品質スコアリング
Context Caching との違い
| 性質 | Batch API | Context Caching |
|---|---|---|
| 割引率 | 50% オフ | 90% オフ |
| 強み | 大量・多様なリクエスト | 同一プロンプトの反復 |
| 応答性 | 24h 以内 | 即時 |
| 併用 | ❌ Caching が優先 | — |
最強コスパ構成: Flash-Lite + Batch
Flash-Lite 通常: $0.075 入力 / $0.30 出力
Flash-Lite + Batch: $0.0375 入力 / $0.15 出力
↑ 通常 Flash の 1/4!
関連記事
- Batch API で Gemini を 50% 安く使う — シリーズ第 3 回
関連用語
- Gemini — 対象モデル
- Google AI Studio — Batch API の利用入口
- Vertex AI — Vertex AI 側の「バッチ推論」も同じ仕組み