让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

henry 发自凹非寺量子位 | 公众号 QbitAI 这意味着模型可以捕捉不同媒体之间的复杂语义关系，从而更准确地理解现实世界中的信息。在评测方面，Gemini Embedding 2不仅整体性能较上一代提升，同时也为多模态嵌入任务树立了新的性能基准。一方面增强了语音处理能力，另一方面也在文本、图像和视频任务中均超越现有领先模型，实现SOTA。原生，启动！刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型—— Gemini Embedding 2 。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。换句话说，不同媒介的数据第一次被放进同一个语义坐标系里。在输入能力上，Gemini Embedding 2支持多种数据类型：此外，模型不仅可以处理单一模态，还支持多模态混合输入（例如图像 +文本）。文本：支持最多8192个token 图像：每次请求最多处理6张图像，支持PNG和JPEG 视频：支持最长120秒的视频输入，格式为MP4和MOV 音频：原生嵌入音频数据，无需中间文本转录文档：可直接嵌入最多6页的PDF | Metric ty ...