Google が開発したマルチモーダル AI モデルファミリー。テキスト・画像・動画・音声を統合的に処理できる。
概要
Gemini は Google DeepMind が開発した大規模言語モデル(LLM)で、テキストだけでなく画像や動画も入力として受け付けるマルチモーダルが特徴。Google Cloud の Vertex AI、または Gemini Developer API から利用できる。
主なモデル
| モデル | 特徴 |
|---|---|
| Gemini Pro | 高精度な推論・分析向け |
| Gemini Flash | 高速・低コスト。大量バッチ処理に適する |
| Gemini Flash Lite | さらに軽量。コスト重視のタスク向け |
EC における活用例
CTS-EC 共通商品マスタでは、Gemini を以下の用途で活用している:
- Gemini Vision(画像分析) — 商品画像からカラーを判定し、共通カラーマスタに自動紐付け
- カテゴリマッピング — 商品情報をもとに、モール別カテゴリツリーをドリルダウンで自動分類
- テキスト埋め込み — カテゴリ名のベクトル化による類似検索
Vertex AI との関係
Gemini モデルは Vertex AI 経由で利用するのが推奨。IAM・VPC-SC・監査ログなどエンタープライズセキュリティ機能が利用でき、GCP 環境との統合が容易。
関連用語
- SSoT(Single Source of Truth) — Gemini で生成したマッピング結果の保存先設計