让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间
henry 发自 凹非寺 量子位 | 公众号 QbitAI 这意味着模型可以捕捉不同媒体之间的复杂语义关系,从而更准确地理解现实世界中的信息。 在评测方面,Gemini Embedding 2不仅整体性能较上一代提升,同时也为多模态嵌入任务树立了新的性能基准。 一方面增强了语音处理能力,另一方面也在文本、图像和视频任务中均超越现有领先模型,实现SOTA。 原生,启动! 刚刚,谷歌发布了首个原生多模态(Multimodal)嵌入模型—— Gemini Embedding 2 。 这次模型最大的变化在于:把文本、图像、视频、音频和文档,全部映射进同一个统一的嵌入空间。 换句话说,不同媒介的数据第一次被放进同一个语义坐标系里。 在输入能力上,Gemini Embedding 2支持多种数据类型: 此外,模型不仅可以处理单一模态,还支持 多模态混合输入 (例如图像 +文本)。 文本:支持最多8192个token 图像:每次请求最多处理6张图像,支持PNG和JPEG 视频:支持最长120秒的视频输入,格式为MP4和MOV 音频:原生嵌入音频数据,无需中间文本转录 文档:可直接嵌入最多6页的PDF | Metric ty ...