语言模型

Search documents
苹果:向第三方开发者开放AI模型
news flash· 2025-06-09 17:13
确认公司重新设计(众多)操作系统。 新版设计是"公司历史上范围最广的新设计"。 APP开发商很快就能接入预装的大语言模型(LLM)。 苹果公司:面向开发者推出苹果智能(Apple Intelligence)模型。 ...
北大携手深圳先进院推出合成生物AI大语言模型,成功获得高性能加帽酶,催化效率高于商业酶2倍
合成生物学与绿色生物制造· 2025-06-09 13:43
天然生物基因组编码海量的功能基因,这些基因在长期进化选择过程中,占据了广泛的序列空间,并发展 出精巧多样的功能活性,为生物体在复杂环境中的生存和繁衍提供了独特优势。 随着测序获得的生物序列累计达数十亿量级,这些潜在的功能基因也为生物制造和合成生物技术提供了基 因元件的"宝库"。然而,尽管天然基因具备极为丰富的功能和应用潜力,目前只有一小部分热门的功能基因 (如基因编辑工具酶)被高质量注释并构建了序列或结构模型。因此,基于序列、结构或深度学习的基因 挖掘和蛋白质设计方法无法拓展至复杂功能基因,限制了对高价值基因元件的挖掘与开发利用。 【SynBioCon】 获悉,针对上述问题 , 北京大学定量生物学中心钱珑 团队 于近日推出了 一款面向 合成生物学元件挖掘与生物制造应用的大语言模型 SYMPLEX , 该模型通过融合领域大语言模型训 练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件并精准 推荐其工程化应用潜力。 此外, 团队 与 中科院深圳先进技术研究院娄春波研究员 合作,将 SYMPLEX 应用于 mRNA 疫苗生物制 造关键酶—— 加帽酶的挖掘 ,成功获得多种高性能新型 ...
中国科研团队研究发现:人工智能可以自发形成人类级认知
Xin Jing Bao· 2025-06-09 13:01
新京报讯(记者张璐)6月9日,记者从中国科学院自动化研究所获悉,科研人员结合行为实验与神经影 像分析,首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统。 相关研究成果发表于《自然·机器智能》。 人类能够对自然界中的物体进行概念化,这一认知能力长期以来被视为人类智能的核心。当我们看到 狗、汽车或苹果时,不仅能识别它们的物理特征,比如尺寸、颜色、形状等,还能理解其功能、情感价 值和文化意义,这种多维度的概念表征构成了人类认知的基石。 研究人员从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标签。研究发现, 这些维度是高度可解释的,且与大脑类别选择区域的神经活动模式显著相关。 研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义 标签和抽象概念。研究表明,大语言模型内部存在着类似人类对现实世界概念的理解。 随着ChatGPT等大语言模型(LLMs)的发展,一个根本性问题浮出水面:这些大模型能否从语言和多 模态数据中发展出类似人类的物体概念表征? 近日,中国科学院自动化研究所神经计算与脑机交互(NeuBCI)课题组与中国科学 ...
人工智能可自发形成人类级认知?中国团队最新研究首次证实
Huan Qiu Wang Zi Xun· 2025-06-09 12:57
该项研究由中国科学院自动化研究所(自动化所)神经计算与脑机交互团队、中国科学院脑科学与智能技 术卓越创新中心团队等联合完成,相关成果论文6月9日在国际专业学术期刊《自然·机器智能》上线发 表。这不仅为人工智能认知科学开辟了新路径,更为构建类人认知结构的人工智能系统提供了理论框 架。 来源:中国新闻网 中新网北京6月9日电 (记者 孙自法)人工智能(AI)能否像人类一样认知和理解事物?中国科学家团队结合 行为实验与神经影像分析首次证实,基于人工智能技术的多模态大语言模型能够自发形成与人类高度相 似的物体概念表征系统,即人工智能可自发形成人类级认知。 本项研究的实验范式示意图。中国科学院自动化所 供图 论文第一作者、中国科学院自动化所杜长德副研究员介绍说,人类能够对自然界中的物体进行概念化, 这一认知能力长期以来被视为人类智能的核心。当人们看到"狗""汽车"或"苹果"时,不仅能识别它们的 物理特征(尺寸、颜色、形状等),还能理解其功能、情感价值和文化意义,这种多维度的概念表征构成 了人类认知的基石。 近年来,随着ChatGPT等大语言模型的爆发式发展,这些大模型能否从语言和多模态数据中发展出类似 人类的物体概念表 ...
AI动态汇总:谷歌更新Gemini2.5Pro,阿里开源Qwen3新模型
China Post Securities· 2025-06-09 11:39
证券研究报告:金融工程报告 研究所 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《结合基本面和量价特征的 GRU 模 型》 - 2025.06.05 《Claude 4 系列发布,谷歌上线编程 智能体 Jules——AI 动态汇总 20250526》 - 2025.05.27 《谷歌发布智能体白皮书,Manus 全面 开放注册——AI 动态汇总 20250519》 - 2025.05.20 《证监会修改《重组办法》,深化并购 重组改革——微盘股指数周报 20250518》 - 2025.05.19 《通义千问发布 Qwen-3 模型, DeepSeek 发布数理证明大模型——AI 动态汇总 20250505》 - 2025.05.06 《基金 Q1 加仓有色汽车传媒,减仓电 新食饮通信——公募基金 2025Q1 季报 点评》 - 2025.04.30 《泛消费打开连板与涨幅高度,ETF 资 金平铺机 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 10:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
研究显示多模态大模型可自发形成类人的物体概念表征
news flash· 2025-06-09 10:40
Core Insights - The research team from the Institute of Automation at the Chinese Academy of Sciences has confirmed that multimodal large language models (MLLMs) can spontaneously form object concept representation systems that are highly similar to those of humans [1] - This study opens new pathways for cognitive science in artificial intelligence and provides a theoretical framework for constructing human-like cognitive structures in AI systems [1] - The research findings were published in the international academic journal "Nature Machine Intelligence" on June 9 [1]
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 09:41AI Processing
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 09:27
Core Viewpoint - The article discusses the transition of Visual Language Models (VLM) from "perception" to "cognition," highlighting the introduction of "Pixel-Space Reasoning" which allows models to interact with visual information directly at the pixel level, enhancing their understanding and reasoning capabilities [1][2][3]. Group 1: Key Developments in VLM - The current mainstream VLMs are limited by their reliance on text tokens, which can lead to loss of critical information in high-resolution images and dynamic video scenes [2][4]. - "Pixel-Space Reasoning" enables models to perform visual operations directly, allowing for a more human-like interaction with visual data [3][6]. - This new reasoning paradigm shifts the focus from text-mediated understanding to native visual operations, enhancing the model's ability to capture spatial relationships and dynamic details [6][7]. Group 2: Overcoming Learning Challenges - The research team identified a "cognitive inertia" challenge where the model's established text reasoning capabilities hinder the development of new pixel operation skills, creating a "learning trap" [8][9]. - To address this, a reinforcement learning framework was designed that combines intrinsic curiosity incentives with extrinsic correctness rewards, encouraging the model to explore visual operations [9][12]. - The framework includes constraints to ensure a minimum rate of pixel-space reasoning and to balance exploration with computational efficiency [10][11]. Group 3: Performance Validation - The Pixel-Reasoner, based on the Qwen2.5-VL-7B model, achieved impressive results across four visual reasoning benchmarks, outperforming models like GPT-4o and Gemini-2.5-Pro [13][19]. - Specifically, it achieved an accuracy of 84.3% on the V* Bench, significantly higher than its competitors [13]. - The model demonstrated a 73.8% accuracy on TallyQA-Complex, showcasing its ability to differentiate between similar objects in images [19][20]. Group 4: Future Implications - The research indicates that pixel-space reasoning is not a replacement for text reasoning but rather a complementary pathway for VLMs, enabling a dual-track understanding of the world [21]. - As multi-modal reasoning capabilities evolve, the industry is moving towards a future where machines can "see more clearly and think more deeply" [21].
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
机器之心· 2025-06-09 08:03
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推理时「临时学习」一下这 个具体的问题呢?这个看似「离谱」的想法,竟然带来了惊人的效果提升。 试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法, 把每个输入 prompt 本身当作一份「迷你训练数据」 ,让模型在生成答案前先「学习」理解这个具体问题。 更令人惊讶的是,这个方法 简单到离谱 : Qwen2.5-7B 在 GSM8K 数学推理任务上准确率从 57.54% 飙升至 66.19% ,提升 8.65 个百分点。 DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上达到 68. ...