網易首頁 > 網易號 > 正文申請入駐

谷歌首個原生多模態向量模型發布：Agent 可以用文字搜圖片、用圖片搜視頻了...

2026-03-11 09:43:46　來源: 人工智能學家

北京舉報

分享至

來源：AI寒武紀

Gemini Embedding 2上線，統一圖文音視頻向量空間

谷歌正式推出基于Gemini架構構建的首個原生多模態嵌入模型Gemini Embedding 2。該模型目前已通過Gemini API和Vertex AI開啟公開預覽。

與以往純文本基礎模型不同，Gemini Embedding 2的核心突破在于將文本、圖像、視頻、音頻和文檔全部映射到同一個統一的向量空間中，并能跨越100多種語言捕捉語義意圖。這一特性大幅簡化了復雜的處理流程，直接提升了檢索增強生成（RAG）、語義搜索、情感分析以及數據聚類等多模態下游任務的表現。

五大模態全面打通，支持交錯輸入

基于Gemini的多模態理解能力，新模型在各項輸入標準上給出了明確的性能指標：

文本：支持高達8192個輸入Token的超長上下文。
圖像：單次請求最多可處理6張圖像，支持PNG和JPEG格式。
視頻：支持輸入長達120秒的視頻片段，兼容MP4和MOV格式。
音頻：實現原生音頻數據攝取與嵌入，完全不需要中間的文本轉錄步驟。
文檔：支持直接嵌入最多6頁的PDF文件。

除了單模態處理，該模型原生支持交錯輸入。開發者可以在單次請求中同時傳入多種模態數據（例如圖像加文本），模型能夠精準捕捉不同媒體類型之間復雜且細微的關聯，從而對真實的復雜數據實現更準確的理解。

引入套娃表示學習，靈活調整輸出維度

在底層技術上，Gemini Embedding 2延續了谷歌此前嵌入模型采用的套娃表示學習（MRL）技術。該技術通過動態縮小維度來實現信息的嵌套存儲。

這種設計賦予了模型靈活的輸出維度能力。開發者可以從默認的3072維向下縮放，以在模型性能和存儲成本之間尋找最佳平衡點。為保證最高質量的輸出，官方推薦使用3072、1536或768這三個維度。

設立多模態性能新基準

在性能表現上，Gemini Embedding 2在文本、圖像和視頻任務中均超越了現有的領先模型。同時，該模型引入了強大的語音處理能力，為多模態深度確立了新的性能標準，為開發者處理多樣化的嵌入需求提供了直接支持。

目前，嵌入技術不僅是眾多谷歌產品體驗的底層驅動力，在RAG上下文工程、大規模數據管理和經典搜索分析等場景中也發揮著核心作用。部分早期訪問合作伙伴已開始利用Gemini Embedding 2開發高價值的多模態應用。

開發與生態支持

開發者現可通過Gemini API或Vertex AI快速接入該模型。官方提供了基于Python的SDK（google.genai）調用方案，只需少量代碼即可在單次請求中同時完成文本、圖片和音頻的嵌入處理：


from google import genai
from google.genai import types

 # For Vertex AI:
# PROJECT_ID=' 
 
 ' 
 
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

 client = genai.Client()

 with open("example.png", "rb") as f:
    image_bytes = f.read()

 with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

 # Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

 print(result.embeddings)

調用邏輯示例：使用客戶端直接調用 gemini-embedding-2-preview 模型，在 contents 列表中依次傳入文本字符串，以及轉換為字節流格式的圖像和音頻文件，即可直接輸出包含多模態信息的向量結果。

在生態兼容性方面，除了官方的交互式Colab筆記本，Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流開發框架和向量數據庫。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.