CTS-KB

Batch API(Gemini)

ばっちえーぴーあい

Gemini Batch API バッチ推論
#Batch API #Gemini #コスト最適化 #非同期処理 #LLM

Gemini の非同期バッチ処理 API。通常料金の 50% オフでテキスト・マルチモーダル・Embedding を 24 時間以内に処理する。即時応答が不要な大量処理に最適。

概要

Batch API は Gemini API のコスト最適化機能で、通常料金の 50% オフで大量のリクエストを非同期処理できる。ジョブを投げて 24 時間以内(多くは数十分〜数時間)に結果が返る。

Anthropic の Message Batch API と思想は同じで、「即時性が要らないなら半額にする」というインセンティブ設計。

通常 API との比較

項目通常 APIBatch API
料金標準料金50% オフ
応答時間即時24 時間以内
レート制限通常枠より高い枠
適用モデル全モデルGemini 全モデル + Embedding
マルチモーダル✅ 同様に 50% オフ

適用シーン

  • ✅ EC: 数万 SKU の商品説明・SEO テキスト一括生成
  • ✅ コールセンター: 録音データの文字起こし + 要約
  • ✅ 法務: 契約書ライブラリの一括レビュー
  • ✅ 動画: 学習動画 / 監視カメラの自動メタデータ付与
  • ✅ RAG 構築: 数百万件の埋め込み生成
  • ✅ 評価: LLM-as-a-Judge での品質スコアリング

Context Caching との違い

性質Batch APIContext Caching
割引率50% オフ90% オフ
強み大量・多様なリクエスト同一プロンプトの反復
応答性24h 以内即時
併用❌ Caching が優先

最強コスパ構成: Flash-Lite + Batch

Flash-Lite 通常:    $0.075 入力 / $0.30 出力
Flash-Lite + Batch: $0.0375 入力 / $0.15 出力
                    ↑ 通常 Flash の 1/4!

関連記事

関連用語