AI应用行业点评:智谱端侧Agent升级,继续看好AI应用-241201
申万宏源·2024-12-04 02:50
hydre hongyz@swsresearch.com 刘洋 A0230513050006 liuyang2@swsresearch.com 研究支持 首次展示类人计算机使用能力,包括 Web 插件和 PC 端侧。1) AutoGLM 插件上线, ● 陈晴华 A0230123090010 支持百度搜索、微博、知乎、GitHub 等数十个网站的自动操作能力。2) PC 端侧使用 chenqh@swsresearch.com 能力支持一句话操控电脑,完成网页浏览、微信文件发送、参加会议、发送会议总结 联系人 等。目前仍处于产品初期阶段,需要非常精准的 prompt,操作速度较慢以及仅支持 陈晴华 Mac, 有较大提升空间。 (8621)23297818× chenqh@swsresearch.com 目前实现方式仍是通 UI 模拟用户操作进行,图像和语言特征理解是关键技术。智谱 ● GLM-PC 的拟人多模态感知主要基于自研 CogAgent 视觉语言模型技术,用于理解和导 航 GUI,即通过跨注意力机制,将高分辨率图像特征和语言特征融合,理解识别页面元 素,例如按钮、图表和文本位置等,模仿人类交互的方式进行操 ...