国产多模态AI再开源,实测截图转网页、搜图购物,价格减半
3 6 Ke·2025-12-09 12:04
此外,今天上午,智谱还开源了AutoGLM,类似于"豆包手机助手"。该智能体在去年10月发布之时曾被业内视为"全球首个具备手机操作能力 的AI Agent"。 在性能上,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。 智东西12月9日报道,昨晚,智谱开源了其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B) 以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。 ▲GLM-4.6V开源主页(图源:Hugging Face) ▲AutoGLM开源主页(图源:Hugging Face) 据官方介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解 等任务,智东西第一时间对其进行了体验。 在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现较为稳定,其生成文字和网页的速度快、内容准。但图文 混排能力上,其所生成的图片一直无法显示。对于模糊指令,GLM-4.6V的理解有些许偏差。 GLM ...