Workflow
语言大模型
icon
Search documents
“穿轮滑鞋”的导盲机器狗上岗
Hang Zhou Ri Bao· 2025-07-01 02:29
"目前只是初步阶段,因为一条成熟的导盲机器狗,必须要面对更加复杂的陌生环境,拥有临机决 策的能力。"项目负责人说,将来用户靠一部手机就能操作导盲机器狗,在地图软件输入指定地点后, 就能自动生成导航线路,"眼下团队正在重点攻克如何安全地在复杂的城市环境中为盲人导航的难题, 比如识别斑马线、红绿灯,后期还要能上公交车。" "我们希望通过技术创新,用不断升级的智慧化产品去减轻视障群体的出行困难。"该项目负责人表 示。值得一提的是,在设计导盲机器狗时,研发团队还考虑到了陪伴场景。"导盲机器狗搭载的语音交 互系统也是自研的语言大模型,有了'狗狗'说话,用户也许能减缓一些孤独感。"项目负责人说,正式 版的导盲机器狗会有所优化,体积更小、续航更长、外形更像仿生导盲犬。 这条聚焦导盲场景的机器狗,是杭州智元研究院研发的新产品,眼下正处于调试阶段。之所以把测 试点放在西溪智慧大厦,是因为大厦8层系西湖区残疾人文创孵化园,有盲人创业企业5家,平日都有十 余名盲人员工出入,便于测试。 记者发现,这款机器狗采用了一种独特的轮足复合式设计,四只脚都穿上了"轮滑鞋",应对铺装路 面、楼梯、草地、沙地都不在话下,还能轻松爬上坡差在50厘米 ...
智能体让大模型“长出手脚”
Ke Ji Ri Bao· 2025-06-16 23:51
随着大模型技术快速发展,作为其应用载体之一的智能体,正成为各大人工智能开发机构争相发力的重 要方向。 今年3月,一款名为Manus的智能体产品凭借"感知—思考—执行—交付"的全链路智能能力快速走红, 曾引发广泛关注。业界关于智能体的探索步伐不断加快,腾讯、百度、京东等企业在智能体领域加大投 入,一系列产品和相关技术相继推出。 不仅互联网企业大胆试水智能体应用,传统行业企业同样积极拥抱智能体。例如,在能源电力领域,国 家电网与百度合作打造营销供电方案智能体。当用电企业有需求时可以直接通过国网客户端发起对话, 智能体会首先通过意图识别确认用电需求,然后进行任务拆解和规划,自动生成多套供电方案,并主动 帮用户对比不同方案优劣,给出最优建议。如今,该智能体已全面掌握整套业务流程,能准确调动行业 知识和工具系统,实现企业办电流程全面智能化。 吴运声认为,智能体与传统自动化软件的最大不同在于其具备自主思考和决策能力。在传统软件开发范 式下,开发者通常事先设计好流程,即使存在分支逻辑,也是开发者预先定义好的。但智能体面对的是 自然语言交互场景,用户的输入是开放的,不可能穷举所有分支,这就需要智能体自主理解、规划、执 行任务 ...
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 04:13
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI 杯子在我的左边还是右边? 这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型 (VLMs) 也可能答错。 ViewSpatial-Bench评估集中 包含5700个问答对,涵盖相机视角与人类视角两种框架下的五种空间定位识别任务 。 究其根本,还是 当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视 角的空间推理能力 。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正成为与人类协作的智能体。 为此,来自浙江大学、电子科技大学和香港中文大学的研究团队提出了 首个系统评估VLM多视角多任务下的空间定位能力的基准体系 —— ViewSpatial-Bench,涵盖五种不同的任务类型,从相机和人类视角出发,全面评估模型的空间推理能力。 同时还并配备了能够生成精确方向标签的自动化3D标注流水线。通过高效的3D方向标注生成流程,实现了超过5700个问答对,覆盖丰富的 3D场景。 通过在多视角空间数据集上的 ...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 03:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
量子位· 2025-04-02 07:40
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,文小言接入推理模型的大更新背后 ,百度还藏了一手"质变"级技术大招??? Talk is cheap,直接来看Demo: 士别三日,文小言不仅能讲重庆话了,还是成了哄娃的一把好手,被花式打断照样应对如流: 实测下来,Demo不虚。这个全新语音对话功能,确实更有人味儿了,还是能紧贴当下实事的那种—— 只是让Ta推荐周末放松去处,Ta自己就能主动结合当前4、5月份的现实时间,给出更加合理的建议。 划重点,这是 免费 的。现在你也一样可以打开手机里的文小言,直接体验这一全新升级的实时语音对话功能。 但!是! 百度端到端语音语言大模型是有质变的,不是单纯把文本大模型用到语音领域。 语音场景有其独特之处。此前,大家没有充分挖掘这个应用场景的不同,还是按照把文本大模型用到语音场景的路线,把速度加快 一下,工程优化一下。 我们的创新架构,让大模型在语音场景中的应用实现了极低成本,更有利于大模型普及。 如果单说语音体验,那还真不是这个"大招"的重点。关键是,这回百度还透露了更多技术细节。 我们仔细一看,还真是有意思了。 首先,上来就是一个行业首创:以上实时语音对话 ...
对话理想智驾郎咸朋、贾鹏,一个后进生,怎么提前交卷了?
晚点LatePost· 2024-08-02 11:53
以下文章来源于晚点Auto ,作者晚点团队 晚点Auto . 从制造到创造,从不可能到可能。《晚点LatePost》旗下汽车品牌。 智能驾驶,一场昂贵的竞赛开始。决定排位、决定未来。 文丨程曼祺 窦亚娟 编辑丨 宋玮 先后任职于特斯拉和小鹏的谷俊丽博士说,中国智能驾驶研发进度至少落后特斯拉 1.5 -2 年。理想智驾副总裁郎咸朋认为,差距没那么大,产品体验上理想最 多落后半年。 理想强调自己做智驾的优势是车多、数据多,小鹏创始人何小鹏则说:"如果有人说它有很多车、很多数据" 就能做好自动驾驶,"千万别信,绝对是胡扯"。 价格战还在燃烧,中国汽车新势力们又集体挤入了一个新战场——智能驾驶,充满分歧、争议、你追我赶。 不是所有车企都买得起这张入场券。智能驾驶 30 亿研发投入起步,逐年递增。理想说,现在一年租卡要 10 亿人民币,将来要 10 亿美元。 新势力如此疯狂、不甘落后,是因为他们看到了特斯拉 FSD V12(特斯拉 2024 年 1 月开始大规模推送的完全自动驾驶新版本)的巨大进步,也看到了智驾能 力对消费决策的影响。去年 9 月,华为宣布年底推出全国都能开的无图方案,问界同期围绕智驾猛烈宣传。短短一个 ...