阿里云发布多模态交互开发套件 助力硬件实现“能听、会看、会交互”
展会现场,阿里云展示了基于该套件的多项解决方案。在AI眼镜场景中,融合千问VL、百聆CosyVoice等模型,实现了同声传译、拍照翻译、多模态备忘等 一体化功能;在家庭陪伴机器人方面,则可实现异常监测、告警推送、视频定位及人机对话等综合服务。 随着多模态大模型技术逐渐成熟,硬件设备通过接入大模型提升交互体验已成为行业趋势。然而,单一基础模型往往难以兼顾低成本、低时延、功能丰富与 高质量效果等多元需求。阿里云此次发布的开发套件,致力于为硬件企业与解决方案商提供低门槛、快响应、多场景的开发支持。 【环球网科技综合报道】1月8日,在阿里云通义智能硬件展上,阿里云正式推出多模态交互开发套件。该套件集成了千问、万相、百聆三款通义基础大模 型,并预置生活休闲、工作效率等领域的多款智能体与工具,旨在为AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备赋予更强的感知、理解和交互能 力。 模型层面,阿里云不仅提供通义系列模型,还针对多模态交互场景推出专用模型,支持全双工语音、视频、图文等多种交互方式。据称,其端到端语音交互 时延可降至1秒,视频交互时延不超过1.5秒。 此外,套件预置了涵盖生活、工作、娱乐、教育等场景的十余款智能 ...