Workflow
大语言模型(LLM)
icon
Search documents
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 08:59
文章转载自「赛博禅心」 Andrej Karpathy 在 X 上更新了一篇博客文章,回顾了 2025 年大模型发展。 在文章中,Karpathy 提到,2025 年,是 LLM 令人兴奋的一年。 LLM 正在作为一种全新的智能形态浮现,它们同时比我们预想的聪明得多,也比我们预想的蠢得多。 即便在当前的能力水平下,整个行业也远未实现其 10% 的潜力。 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 可验证奖励的强化学习(RLVR), 与此同时,有太多的想法值得去尝试,从概念上看这个领域依然广阔开放。 正如我今年早些时候 在 Dwarkesh 播客中提到的 ,相信我们将继续见证快速而持续的进步,但同时仍有大量工作要做, 系好安全带。 以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象。 TLDR: ⬆️关注 Founder Park,最及时最干货的创业分享 成为新的训练主力 2025 年,可验证奖励的强化学习(RLVR)成为 LLM 训练的新主力环节; ...
AI智能体时代中的记忆:形式、功能与动态综述
Xin Lang Cai Jing· 2025-12-17 04:42
记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张 并吸引空前关注,该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作,在动机、实现、假设和评估方案上往往存在巨大差异,而定义松散的 记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。 在这些智能体的核心能力中,记忆 尤为关键,它明确地促成了从静态大语言模型(其参数无法快速更新)到自适应智能体的转变,使其能够通过环境交 互持续适应(Zhang et al., 2025r; Wu et al., 2025g)。从应用角度看,许多领域都要求智能体具备主动的记忆管理能力,而非短暂、易忘的行为:个性化聊 天机器人(Chhikara et al., 2025; Li et al., 2025b)、推荐系统(Liu et al., 2025b)、社会模拟(Park et al., 2023; Yang et al., 2025)以及金融调查(Zhang et al., 2024)都依赖于智能体处理、存储和管 ...
AI赋能资产配置(三十二):AI如何赋能财经信息“聚合提纯”?
Guoxin Securities· 2025-12-13 13:02
证券研究报告 | 2025年12月13日 AI 赋能资产配置(三十二) AI 如何赋能财经信息"聚合提纯"? 策略研究·策略解读 | 证券分析师: | 王开 | 021-60933132 | wangkai8@guosen.com.cn | 执证编码:S0980521030001 | | --- | --- | --- | --- | --- | | 证券分析师: | 陈凯畅 | 021-60375429 | chenkaichang@guosen.com.cn | 执证编码:S0980523090002 | 事项: ①AI 大模型在金融信息处理领域的应用持续深化,为解决信息过载、分析成本高的行业痛点提供了技术支 撑。基于 LLM 的自动化财经情报工具 Wide-Research-for-Finance 通过整合多源数据与智能分析能力,为个 人投资者及小型研究团队提供了轻量化、高性价比的信息解决方案。②该工具以两阶段处理机制为核心, 先通过标题快速筛选每小时采集的 200+条新闻,再依托 DeepSeek 大模型完成情绪识别、实体提取、事件 分类与影响评估,同步生成结构化报告,支持本地部署与自定义数据源扩展, ...
LLM距离AGI只差一层:斯坦福研究颠覆「模式匹配」观点
机器之心· 2025-12-10 10:30
机器之心报道 编辑:杨文、泽南 有关大语言模型的理论基础,可能要出现一些改变了。 斯坦福发了篇论文,彻底颠覆了「LLM 只是模式匹配器」的传统论调。 它提出的不是扩展技巧或新架构,而是一个让模型真正具备推理能力的「协调层」。 核心观点:AGI 的瓶颈在于协调,而非规模 人工智能界正因围绕大语言模型本质的争论而分裂。一方面,扩展派认为 LLMs 足以实现 AGI;另一方 面,有影响力的批评者认为 LLM「仅仅是模式匹配器」,在结构上不具备推理、规划或组合泛化能力,因 此是死胡同。 作者认为这场争论建立在一个错误的二分法之上,并提出一个颠覆性极强的核心观点: LLM 的失败不是因 为缺乏推理能力,而是因为我们缺少将其模式与目标绑定的系统。 为了解释这一点,作者用了一个捕鱼隐喻。 海洋代表模型庞大的模式库,渔夫不用鱼饵就撒网,收获的只是最常见的鱼类(训练数据中的通用模 式)。批评者谴责这些未锚定的输出,但他们观察到的只是未加诱饵的捕捞所产生的原始统计基线,这不 是系统损坏,而是系统在默认模式下的自然表现。 然而,智能行为不仅仅是撒网,它还涉及下饵和过滤。如果诱饵过于稀疏,它就无法吸引特定、稀有的 鱼,海洋的先验仍然 ...
深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
3 6 Ke· 2025-12-10 07:00
让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。 通过多模态世界模型与分层预测反馈机制,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在长轨迹导航中表现突出。 目前,该论文已入选AAAI2026。 而随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 于是研究团队提出了UNeMo框架,其核心突破在于构建了"多模态世界模型(MWM)+分层预测反馈导航器(HPFN)"的双向协同架构,将视觉状态推 理与导航决策深度绑定,从根本上解决现有方法的脱节问题。 基于多模态世界模型的未来视觉状态预测 MWM基于条件变分自编码器构建,核心是精准预判 ...
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
Xin Lang Cai Jing· 2025-12-10 06:52
UNeMo团队 投稿 量子位 | 公众号 QbitAI 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。 通过多模态世界模型与分层预测反馈机制,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在长轨迹导航中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。 而随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 于是研究团队提出了UNeMo框架,其核心突破在于构建了"多模态世界模型(MWM)+分层预测反馈导航器(HPFN)"的双向协同架构,将视觉状态推 理与导航决策深度绑定,从根本上解决现有方法的脱节问题。 基于多模态世界模型的未来视觉 ...
谷歌IMO金牌级Gemini 3深夜上线,华人大神挂帅,OpenAI无力反击
3 6 Ke· 2025-12-05 10:08
太劲爆了! 不过半月,谷歌DeepMind终于放出了IMO最强金牌模型——Gemini 3 Deep Think。 这一次,谷歌为其注入了全新的血液——Gemini 3。 凭借着「并行思考」能力,Gemini 3 Deep Think可以搞定超高难度的数学、科学难题! 在基准测试中,Deep Think全面碾压Gemini 3 Pro,尤其是在HLE上,未用工具拿下了41%高分。 同时在ARC-AGI-2上,以45.1%成绩领跑全球。 下面实例中,同一个指令,让Gemini 3 Pro和Deep Think版基于一张博物馆展馆屋顶的草图,创建一个精确的交互式3D场景。 显然,后者在还原度上,与原图几乎是1:1复刻,并在交互上,光影变化符合物理逻辑。 今年夏天,Gemini 2.5 Deep Think分别在IMO、ICPC国际大赛中,拿下了金牌的战绩。 今天,Gemini 3 Deep Think已在Gemini App上线,所有Ultra用户即可体验。 最强IMO金牌模型来了 Gemini 3 Deep Think正式开启了「深度思考」新纪元,让智能的边界再次拓展。 Gemini 3 Deep Think基 ...
元保发布第三季度财报:营收达11.58亿元,AI驱动业务成效显著
Ge Long Hui· 2025-12-03 10:07
Group 1: Financial Performance - In Q3 2025, the company reported total revenue of RMB 1.158 billion, representing a year-on-year growth of 33.6% [1] - The net profit for the same period reached RMB 370 million, showing a year-on-year increase of 51.3% [1] - As of September 30, 2025, the company's cash reserves stood at RMB 3.75 billion, indicating a solid financial position [1] Group 2: Technological Advancements - The company's model library expanded to over 4,900 models and 5,500 features, with approximately 400 new models and 750 new features added year-on-year [1] - The introduction of large language models (LLM) has significantly enhanced operational efficiency, with AI-generated code accounting for nearly 50% of the coding process in Q3 [1] - The AI team comprises over 10% of the total workforce, reflecting the company's commitment to technology [1] Group 3: Market Trends and Product Development - The establishment of a national "medical insurance + commercial insurance" settlement center has integrated commercial insurance into China's multi-tiered medical security system [2] - The company is focusing on the inclusive health insurance sector, launching a short-term critical illness insurance product that combines a "one-time payment + multiple reimbursements" model [2] - The customer service center has introduced a "Five Hearts Service" standard to enhance the user experience throughout the entire process [2]
2025年AI智能体在未来产业创新上的前沿应用与发展趋势报告(1)
Sou Hu Cai Jing· 2025-12-02 21:04
今天分享的是:2025年AI智能体在未来产业创新上的前沿应用与发展趋势报告(1) 报告共计:58页 《2025年AI智能体在未来产业创新上的前沿应用与发展趋势报告》系统阐述AI智能体(Agentic AI)从技术演进到产业应用的全维度图景。报告指出,AI正 从大模型(LLM)的"理解与生成"阶段,迈向智能体"感知-决策-行动-学习"闭环的Agentic时代,其核心公式为"Agent = Model + Memory + Action + Reflection + Evolution",涵盖感知、推理、行动等核心模块,及多智能体协作、持久记忆、编排层等高级组件,但当前存在因果推理不足、LLM固有缺陷、 能动性弱、长期规划能力薄弱等局限。市场方面,2024年全球AI智能体市场规模约52.9亿美元,预计2030年达460-470亿美元,年复合增长率超40%,北美为 主要资金池,欧洲聚焦隐私合规,中国偏向出海应用层,以色列深耕中后台技术。技术创新上,涌现检索增强生成(RAG)、工具增强推理、多智能体协 同等十大解决方案,未来突破方向包括多模态融合、自主决策提升、协作能力增强、边缘计算集成,且呈现从应用驱动到生态驱动、 ...
复旦大学最新Cell子刊:DeepSeek-R1、GPT-4等大语言模型可增强肺癌筛查的临床决策
生物世界· 2025-11-28 04:05
Core Insights - Lung cancer is one of the most aggressive and prevalent cancers globally, with an estimated 2.2 million new cases and 1.8 million deaths in 2020, leading to a five-year survival rate of less than 10% due to late-stage diagnosis [2] Group 1: Research Findings - A multi-center benchmarking study evaluated six large language models (LLMs) for clinical decision support in lung cancer screening, revealing that Claude 3 Opus had the highest readability, while GPT-4 achieved the highest clinical accuracy [3][7] - The study involved a cross-sectional analysis of 148 anonymized low-dose computed tomography (LDCT) reports from three medical institutions, assessing the performance of LLMs in providing management recommendations for incidental lung nodules [6][8] - The results indicated that the performance differences among LLMs were not significant across different hospital reports, highlighting their robustness and practicality in various medical environments [7][10] Group 2: Implications for Clinical Practice - The findings suggest that LLMs could enhance clinical decision support in lung cancer screening, particularly in managing incidental findings from LDCT scans, which is a pressing challenge in cancer screening management [6][10] - The study underscores the potential of LLMs to assist outpatient physicians in making timely decisions regarding follow-up interventions or surveillance strategies for lung nodules [5][6]