← 返回首頁

Google DeepMind 的產品經理 Min Choi 和傑出工程師 Tom Duerig 在 2026 年 3

Google AI Developers
Google AI Developers
@googleaidevs
2,933🔁 359
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

Google DeepMind 的產品經理 Min Choi 和傑出工程師 Tom Duerig 在 2026 年 3 月發布了 Gemini Embedding 2,這是 Google 首個原生多模態嵌入模型,現已通過 Gemini API 和 Vertex AI 以公開預覽版的形式提供。

多模態統一空間 Gemini Embedding 2 將文字、圖像、影片、音訊和文件映射到單一統一的嵌入空間,支援超過 100 種語言的語意理解。這項功能標誌著從過往的純文字基礎模型的重大進展,能夠簡化複雜的處理管道,增強檢索增強生成 (RAG)、語意搜尋、情感分析和資料聚類等多種多模態下游任務的效能。

各模態處理能力 該模型基於 Gemini 架構,充分利用其同類最佳的多模態理解能力。在各模態的處理能力上:

  • 文字支援最高 8192 個 token 的輸入上下文
  • 圖像能處理每個請求最多 6 張圖片,支援 PNG 和 JPEG 格式
  • 影片支援最長 120 秒的 MP4 和 MOV 格式輸入
  • 音訊不需要中間的文字轉錄就能原生地進行處理和嵌入
  • 文件則能直接嵌入最長 6 頁的 PDF 檔案

交錯輸入理解 模型的一個關鍵優勢在於它能原生理解交錯輸入,允許開發者在單一請求中同時傳入多種模態的資料(例如圖像加文字),讓模型能夠捕捉不同媒體類型之間複雜微妙的關係,從而對現實世界的複雜資料實現更準確的理解。

MRL 維度壓縮 Gemini Embedding 2 採用了 Matryoshka Representation Learning (MRL) 技術,這種方法通過動態縮減維度來「嵌套」資訊,使開發者能夠靈活調整輸出維度,從預設的 3072 維向下擴展到 1536 和 768 維,在效能和儲存成本之間取得平衡。Google 建議使用 3072、1536 和 768 維度以達到最高品質。

性能基準領先 在性能表現上,Gemini Embedding 2 不僅改進了舊版模型,更為多模態嵌入建立了新的效能基準,引入了強大的語音能力,並在文字、圖像和影片任務上超越同類領先模型。這種可量化的效能提升和獨特的多模態覆蓋範圍為開發者提供了應對多樣嵌入需求的工具。

實際應用夥伴 嵌入技術已廣泛應用於 Google 眾多產品中。早期進行公開預覽的合作夥伴已經利用 Gemini Embedding 2 開發高價值的多模態應用程式,包括在法律領域協助律師在文件檢索過程中找到關鍵資訊,以及為 Sparkonomy 的創意經濟平等引擎提供基礎支持。合作夥伴特別讚揚該模型與現有工作流程的良好 API 相容性。

整合與存取方式 開發者可以透過 Gemini API 或 Vertex AI 開始使用 Gemini Embedding 2,也能通過以下框架和服務進行整合:

  • LangChain、LlamaIndex、Haystack
  • Weaviate、QDrant、ChromaDB
  • Vector Search

Google 認為這個多模態基礎設施將為下一代先進人工智慧體驗奠定基礎。