Gemini API モデル移行ガイド：2.5 → 3 への備え

📋 この記事の対象

Vertex AI で Gemini 2.5 モデル（Pro / Flash / Flash Lite）を利用しているプロジェクトが対象です。Gemini Developer API（AI Studio）を利用している場合は別の廃止スケジュールが適用されるため、公式ドキュメントを確認してください。

✅ 結論（やるべきこと）

2026 年 10 月 16 日までに Gemini 3 への移行テストを完了する
思考シグネチャの循環を実装する（Gemini 3 の推論機能に必須）
Provisioned Throughput を利用中の場合は 1 ヶ月前までに新モデルへの割り当てをリクエスト
料金変動を見積もる（トークン効率は上がるが単価は上がる）

📅 廃止スケジュール

項目	内容
対象モデル	Gemini 2.5 Pro / Gemini 2.5 Flash / Gemini 2.5 Flash Lite
対象プラットフォーム	Vertex AI のみ（AI Studio は別スケジュール）
当初の廃止予定	2026 年 6 月
延期後の廃止予定	2026 年 10 月 16 日以降
確定時期	Gemini 3 の GA（一般提供）開始後、少なくとも 6 ヶ月前に通知

2026-04-15 更新: Google より廃止日の延期が通知されました。当初 2026 年 6 月だった期限が、2026 年 10 月 16 日以降に延期されています。

💰 料金の変動

現行 Gemini 2.5 の料金（参考）

生成モデル（Batch API 適用前）:

モデル	入力 (per 1M tokens)	出力 (per 1M tokens)	用途
`gemini-2.5-flash-lite`	$0.10	$0.40	単純分類・軽量タスク
`gemini-2.5-flash`	$0.30	$2.50	複雑な推論
`gemini-2.5-pro`	$1.25	$10.00	高度な分析

Batch API を使用すると上記から 50% 割引になります。

埋め込みモデル:

モデル	次元数	料金 (per 1M tokens)	備考
`gemini-embedding-001`	768/1536/3072	$0.15（Batch: $0.075）	100+ 言語対応

Gemini 3 の料金（未公開）

Gemini 3 の正式な料金は 2026 年 4 月時点で未公開です。 GA（一般提供）開始時に発表される見込みです。

Google の廃止通知では以下のように述べられています：

Gemini 3 モデルは一般的にトークン効率が高く、品質も優れていますが、トークンあたりの料金は高くなります。運用の合計費用はユースケースによって異なります。

つまり「1 トークンあたりの単価は上がるが、同じタスクに必要なトークン数は減る」ため、合計コストは増減どちらもありえます。

料金公開後にやること

現在の利用量（トークン数）を gemini-2.5-flash-lite 等で計測しておく
Gemini 3 の料金が公開されたら、同じタスクを新モデルで実行してトークン数を比較
(新トークン数 × 新単価) と (旧トークン数 × 旧単価) でコスト比較
必要に応じて Pro → Flash、Flash → Flash Lite のダウングレードも検討

Batch API の互換性

gemini-embedding-001 は Vertex AI で GA 済み・Batch API 対応済み です（以前は未対応でしたが、現在は解消されています）。

Gemini 3 でも Batch API（50% 割引）は引き続き利用可能な見込みですが、以下を確認してください：

Gemini 3 の生成モデルが Batch API に対応しているか（GA 直後は未対応の場合あり）
JSONL フォーマットやレスポンス構造に変更がないか

🔧 移行で必要な実装変更

1) 思考シグネチャの循環（必須）

Gemini 3 では、モデルの推論機能を維持するために思考シグネチャの循環が必要です。

リクエスト → レスポンス（思考シグネチャ付き）
                 ↓
    思考シグネチャをキャプチャ
                 ↓
次のリクエストにそのまま含める → レスポンス ...

各レスポンスから思考シグネチャをキャプチャする
受け取ったままの状態で、フォローアップリクエストに含める
改変すると推論品質が低下する

詳細は思考シグネチャのガイドを参照してください。

2) モデルエンドポイントの更新

- model: "gemini-2.5-pro"
+ model: "gemini-3.0-pro"

- model: "gemini-2.5-flash"
+ model: "gemini-3.0-flash"

3) Provisioned Throughput の更新

PT を購入済みの場合：

廃止日より前に新しいモデルエンドポイントへの PT 割り当てを更新
承認に時間がかかるため 1 ヶ月前までにリクエストを送信
GSU（Generative AI Scale Unit）の単価が変更される可能性あり

🔄 モデルライフサイクル管理

今回の移行を機に、モデル廃止に振り回されない運用体制を整えましょう。

対策	内容
モデル名を環境変数化	コードにハードコードしない。設定ファイルや環境変数で切り替え可能にする
四半期ごとに廃止スケジュールを確認	Gemini API Deprecations を定期チェック
終了 3 ヶ月前に新モデルでテスト	品質・料金・レート制限を本番相当で検証
プラットフォーム選択を記録	Vertex AI と Developer API の使い分け理由をドキュメント化しておく

# ❌ NG: ハードコード
model = "gemini-2.5-flash-lite"

# ✅ OK: 環境変数から取得
model = os.environ.get("GEMINI_MODEL", "gemini-2.5-flash-lite")

📝 移行チェックリスト

移行準備
├── [ ] 現在利用中のモデル・エンドポイントを棚卸し
├── [ ] Gemini 3 モデルで既存ワークフローをテスト
├── [ ] 思考シグネチャの循環を実装
├── [ ] 料金シミュレーション（トークン数 × 新単価）
├── [ ] Provisioned Throughput の更新リクエスト（利用中の場合）
└── [ ] ステージング環境で本番同等の負荷テスト

本番移行
├── [ ] モデルエンドポイントの切り替え
├── [ ] レスポンス品質の監視（1〜2 週間）
└── [ ] コスト実績の確認

🔗 関連記事

CTS-EC 共通商品マスタ — Gemini Vision・Gemini Flash を活用した AI カテゴリマッピング・カラー紐付けの実例