![]()
來源:AI寒武紀
Gemini Embedding 2上線,統一圖文音視頻向量空間
谷歌正式推出基于Gemini架構構建的首個原生多模態嵌入模型Gemini Embedding 2。該模型目前已通過Gemini API和Vertex AI開啟公開預覽。
與以往純文本基礎模型不同,Gemini Embedding 2的核心突破在于將文本、圖像、視頻、音頻和文檔全部映射到同一個統一的向量空間中,并能跨越100多種語言捕捉語義意圖。這一特性大幅簡化了復雜的處理流程,直接提升了檢索增強生成(RAG)、語義搜索、情感分析以及數據聚類等多模態下游任務的表現。
五大模態全面打通,支持交錯輸入
基于Gemini的多模態理解能力,新模型在各項輸入標準上給出了明確的性能指標:
文本:支持高達8192個輸入Token的超長上下文。
圖像:單次請求最多可處理6張圖像,支持PNG和JPEG格式。
視頻:支持輸入長達120秒的視頻片段,兼容MP4和MOV格式。
音頻:實現原生音頻數據攝取與嵌入,完全不需要中間的文本轉錄步驟。
文檔:支持直接嵌入最多6頁的PDF文件。
除了單模態處理,該模型原生支持交錯輸入。開發者可以在單次請求中同時傳入多種模態數據(例如圖像加文本),模型能夠精準捕捉不同媒體類型之間復雜且細微的關聯,從而對真實的復雜數據實現更準確的理解。
引入套娃表示學習,靈活調整輸出維度
在底層技術上,Gemini Embedding 2延續了谷歌此前嵌入模型采用的套娃表示學習(MRL)技術。該技術通過動態縮小維度來實現信息的嵌套存儲。
這種設計賦予了模型靈活的輸出維度能力。開發者可以從默認的3072維向下縮放,以在模型性能和存儲成本之間尋找最佳平衡點。為保證最高質量的輸出,官方推薦使用3072、1536或768這三個維度。
設立多模態性能新基準
在性能表現上,Gemini Embedding 2在文本、圖像和視頻任務中均超越了現有的領先模型。同時,該模型引入了強大的語音處理能力,為多模態深度確立了新的性能標準,為開發者處理多樣化的嵌入需求提供了直接支持。
![]()
目前,嵌入技術不僅是眾多谷歌產品體驗的底層驅動力,在RAG上下文工程、大規模數據管理和經典搜索分析等場景中也發揮著核心作用。部分早期訪問合作伙伴已開始利用Gemini Embedding 2開發高價值的多模態應用。
開發與生態支持
開發者現可通過Gemini API或Vertex AI快速接入該模型。官方提供了基于Python的SDK(google.genai)調用方案,只需少量代碼即可在單次請求中同時完成文本、圖片和音頻的嵌入處理:
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID=' '
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)print(result.embeddings)
調用邏輯示例:使用客戶端直接調用 gemini-embedding-2-preview 模型,在 contents 列表中依次傳入文本字符串,以及轉換為字節流格式的圖像和音頻文件,即可直接輸出包含多模態信息的向量結果。
在生態兼容性方面,除了官方的交互式Colab筆記本,Gemini Embedding 2已全面支持 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 以及 Vector Search 等主流開發框架和向量數據庫。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.