CTS-KBナレッジベース

Batch API（Gemini）

ばっちえーぴーあい

Gemini Batch APIバッチ推論

#Batch API#Gemini#コスト最適化#非同期処理#LLM

Gemini の非同期バッチ処理 API。通常料金の 50% オフでテキスト・マルチモーダル・Embedding を 24 時間以内に処理する。即時応答が不要な大量処理に最適。

概要

Batch API は Gemini API のコスト最適化機能で、通常料金の 50% オフで大量のリクエストを非同期処理できる。ジョブを投げて 24 時間以内（多くは数十分〜数時間）に結果が返る。

Anthropic の Message Batch API と思想は同じで、「即時性が要らないなら半額にする」というインセンティブ設計。

通常 API との比較

項目	通常 API	Batch API
料金	標準料金	50% オフ
応答時間	即時	24 時間以内
レート制限	通常枠	より高い枠
適用モデル	全モデル	Gemini 全モデル + Embedding
マルチモーダル	✅	✅ 同様に 50% オフ

適用シーン

✅ EC: 数万 SKU の商品説明・SEO テキスト一括生成
✅ コールセンター: 録音データの文字起こし + 要約
✅ 法務: 契約書ライブラリの一括レビュー
✅ 動画: 学習動画 / 監視カメラの自動メタデータ付与
✅ RAG 構築: 数百万件の埋め込み生成
✅ 評価: LLM-as-a-Judge での品質スコアリング

Context Caching との違い

性質	Batch API	Context Caching
割引率	50% オフ	90% オフ
強み	大量・多様なリクエスト	同一プロンプトの反復
応答性	24h 以内	即時
併用	❌ Caching が優先	—

最強コスパ構成: Flash-Lite + Batch

Flash-Lite 通常:    $0.075 入力 / $0.30 出力
Flash-Lite + Batch: $0.0375 入力 / $0.15 出力
                    ↑ 通常 Flash の 1/4！

関連記事

Batch API で Gemini を 50% 安く使う — シリーズ第 3 回

関連用語

Gemini — 対象モデル
Google AI Studio — Batch API の利用入口
Vertex AI — Vertex AI 側の「バッチ推論」も同じ仕組み

← 用語集に戻る