语言

Search documents
因建议被裁开发者用AI规划职业、疏导情绪,Xbox制作人遭受批评
Sou Hu Cai Jing· 2025-07-04 10:59
Group 1 - Microsoft announced a new round of layoffs, with an expected reduction of over 9,000 employees [3] - The layoffs have led to the cancellation of multiple projects, affecting thousands of employees [1] - A producer from Xbox Game Studios, Matt Turnbull, suggested using generative AI tools to cope with the emotional burden of unemployment, which sparked widespread controversy [1][2] Group 2 - Turnbull's comments were criticized by former employees, highlighting the lack of respect for those affected by the layoffs [2] - The context of the layoffs is tied to Microsoft's significant investments in the AI sector, which has raised concerns among employees [2]
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 策略网络的学习过去集中在如何从标注的数据集中提取模式,数据增⼴在其中起到了关键作用。如今, LLM拥有了强大的先验知识,如何从中蒸馏有效的规划信息,成为了近期研究的热点。 再来看看目标导航 VLN更进⼀步,是目标导航任务(Object Navigation),目标导航要求智能体在陌生的三维环境中,仅凭目 标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与路径规划。 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言 ...
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 作者:Zhangyang Qi , Zhixiong Zhang , Yizhou Yu , Jiaqi Wang , Hengshuang Zhao 单位: 香港大学, 上海AI实验室 论文标题:VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning 论文链接:https://arxiv.org/abs/2506.17221 项目主页:https://vlnr1.github.io/ 代码链接:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1 提出VLN-R1框架 :利用大型视觉语言模型(LVLM)处理第一视角视频流,从而实现连续环境中的视觉语 言导航。与以往基于离散导航图的方法不同,VLN-R1能够生成连续的 ...
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
机器之心· 2025-07-04 08:59
本文第一作者为 Virginia Tech 计算机系博士 Candidate 曾欣悦,研究聚焦于提升大语言模型的理论可解释性与实证性能,以增强其在实际应用中的可靠性与泛化能 力(个人主页:https://susan571.github.io/)。通讯作者为周大为助理教授。 还在为海量 LLM 如何高效选型而头疼?还在苦恼资源有限无法穷尽所有微调可能?来自弗吉尼亚理工大学的最新研究,提出 LensLLM 框架,不仅能精准预测大 模型微调性能,更大幅降低计算成本,让 LLM 选型不再是 "开盲盒"! 一、前言: LLM 狂飙突进,选型为何成了 "瓶颈"? 大语言模型(LLMs)的浪潮席卷全球,从机器翻译、文本摘要到智能问答和对话系统,它们正以惊人的速度重塑着自然语言处理的边界。然而,当开源 LLM 如 雨后春笋般涌现,例如 LLaMA、Falcon、Mistral 到 DeepSeek,如何在这片模型 "森林" 中找到最适合特定下游任务的那一棵 "参天大树",却成了摆在研究者和开 发者面前的巨大挑战。传统的模型选择方法,面对 LLM 的庞大规模和复杂性,往往耗费巨大计算资源却收效甚微,且泛化能力不足,如同在黑暗中 ...
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 08:59
如果告诉你, AI 在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信 吗? 复旦 NLP 实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现: 游戏不仅是娱乐 工具,更是训练 AI 推理能力的宝贵资源。 Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning 论文链接: https://arxiv.org/abs/2505.13886 代码仓库: https://github.com/tongjingqi/Code2Logic 标题: 数据和模型: https://huggingface.co/Code2Logic 引言 高质量多模态推理数据的极度稀缺,制约了视觉语言模型( VLMs )复杂推理能力的提升。那么,有 没有一种低成本又可靠的方法来大规模生成这些数据呢? 复旦与字节的研究团队创新性地提出了一个巧妙的思路: 利用游戏代码自动合成视觉推理数据。 | A | ਟ | E | ч | 0 | - | | --- | --- | --- | --- | --- | ...
AI写综述,靠谱吗?
Hu Xiu· 2025-07-04 07:49
当Sam Rodriques还是神经生物学的研究生时,他发现了科学研究中的一个基本问题。他说:"我们说不定已 经拥有了理解人体细胞或大脑的所有必要信息,但不知道到底能否确定这一点,因为没有人类能读完和搞懂 所有这些文献。" 五年后,Rodriques说用人工智能(AI)已经接近解决这个问题。2023年9月,他和初创公司FutureHouse的团 队开发出了一个人工智能系统。这个系统能在几分钟内完成科学知识的总结,准确度超过了维基百科页面 [1]。团队随后用这个系统快速生成了大约17000个人类基因的维基百科式条目,之前它们大多没有详细介绍 页。 Rodriques不是唯一用人工智能来汇总科学知识的人。几十年来,学者们一直在寻找方法来加快文献综述这项 耗时的工作。伦敦国王学院的研究综述专家Iain Marshall说,"综述太长、强度太高,而且经常写完就过时 了。"最近,随着支撑ChatGPT等工具的生成式AI即大语言模型(LLM)的快速发展,人们对自动化综述工作 有了新的期待。 一些较新的基于人工智能的科学搜索引擎已经能通过查找、分类和总结出版物,帮助人们撰写叙述性文献综 述,也就是用文字形式系统地整理研究成 ...
第45届国际预测大会在京落幕 预测研究“中国力量”引全球瞩目
Sou Hu Cai Jing· 2025-07-04 07:10
7月2日,第45届国际预测大会(ISF 2025)在北京圆满闭幕。 国际预测大会是该领域最具权威性的国际学术会议。自1981年创办以来,今年首次在中国大陆举办,吸 引了来自全球35个国家和地区的580位顶尖预测科学学者、行业领袖及政策制定者注册参会,规模创历 史新高,充分展现了预测科学在全球的重要性日益增长及中国在该领域的影响力日益提升。 大会围绕"预测科学的前沿与创新"主题,聚焦人工智能、大数据、经济管理、能源环境、气候变化等关 键领域,设置了13场主旨报告、5场深度工作坊、12个平行论坛共计106个专题分论坛,累计开展348场 学术报告。专家学者们就贝叶斯预测、机器学习、大语言模型、预测不确定性、预测组合等热点议题, 以及预测在宏观经济、金融、供应链、能源、医疗、灾害防控等领域的应用展开了广泛而深入的交流。 据了解,下一届国际预测大会(ISF 2026)将于明年在加拿大举行。 ISF 2025大会报告人。主办方供图 本届大会不仅促进了全球预测科学前沿成果的分享与碰撞,也为深化该领域的国际科研合作与交流搭建 了重要平台,对推动预测科学的发展及其在应对全球挑战中的应用具有重要意义。 国际预测者协会主席Laur ...
Science子刊:2024年的生物医学论文,至少有14%利用了AI辅助写作
生物世界· 2025-07-04 06:47
撰文丨王聪 编辑丨王多鱼 排版丨水成文 当世界发生变化时,人类书写的文字也会随之改变。像战争、传染病大流行这样的重大事件会影响文本语料库中的词频分布。科学学科的兴衰在学术著作中也可 见一斑。那么,科学技术的进步是否也在我们的写作中留下了类似的痕迹呢? 2022 年 11 月, ChatGPT 横空出世,这让人类的写作经历了前所未有的变革:首次出现了一款广泛可用的大语言模型 (LLM) ,它能够在包括学术界在内的 多个领域生成和修改具有媲美人类表现的文本。此后,许多研究人员在日常写作任务中融入了大语言模型 (LLM) ,甚至与大语言模型共同撰写了论文。这也引 发了人们对科研诚信、大语言模型生成内容中的事实错误以及论文工厂滥用大语言模型生成虚假论文的担忧。 基于这些担忧,有研究人员开始尝试追踪 大语言模型辅助写作 ( LLM-assisted writing ) 在科学文本中留下的痕迹。 2025 年 7 月 2 日,德国图宾根大学的研究人员在 Science 子刊 Science Advances 上发表了题为 : Delving into LLM-assisted writing in biomedical ...
AI杀死了破折号,也绞杀了语文
Hu Xiu· 2025-07-04 04:23
Core Viewpoint - The article discusses the phenomenon of distinguishing AI-generated content from human writing through the use of specific punctuation marks, particularly the em dash and quotation marks, which have become symbols of AI writing [1][21][38]. Group 1: AI and Punctuation - The em dash and quotation marks are identified as common features in AI-generated text, leading to a societal response of avoiding these symbols to differentiate human writing from AI [21][52][60]. - The use of these punctuation marks is seen as a reflection of cultural and logical expression, which is now being abandoned to combat AI content [38][67]. - The article highlights a paradox where, to prove human authorship, individuals may need to relinquish previously valued linguistic tools [24][38][67]. Group 2: Cultural Implications - The reliance on specific punctuation as a means of identification reflects a broader cultural shift towards simpler, more primitive forms of communication in response to AI [67][72]. - This shift may lead to a degradation of language richness and expression, as society moves towards a more colloquial and less nuanced mode of communication [70][72]. - The article suggests that the future of human expression may resemble informal, error-prone language, devoid of the complexity that characterized previous writing styles [75][78].
清华&小米团队发布VLA模型综述
理想TOP2· 2025-07-04 02:54
以下文章来源于具身进化 ,作者一起学习 具身进化 . 智启形随,进化无界。 一、 自动驾驶的技术范式演进 自动驾驶技术正从简单的感知-控制,向更高级的认知智能演进,最新的自动驾驶模型可以分为三大范式: ●端到端自动驾驶 (End-to-End AD): 将传感器输入直接映射到驾驶动作。此模式高效但缺乏可解释性,难以处理需要高级推理的"长尾"场景。 ●用于自动驾驶的视觉语言模型 (VLMs for AD): 引入视觉语言模型来理解和解释复杂的交通场景,显著提升了系统的可解释性。但其输出的 语言与车辆的实际控制脱节,存在"行动鸿沟"。 ●用于自动驾驶的视觉-语言-行动模型 (VLA for AD): 当前最新的范式。它在一个统一模型中整合视觉感知、语言理解和动作执行,实现了感 知、推理和行动的闭环。车辆遵循自然语言指令直接输出动作或者轨迹。 二、 VLA自动驾驶模型的核心架构 一个典型的VLA模型由输入、处理、输出三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制。 1.多模态输入 (Inputs): ○视觉与传感器数据:视觉是系统的核心输入,技术已从早期的单前视摄像头发展到如今的多摄像头环视系统。为 ...