Workflow
语言模型
icon
Search documents
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
Sou Hu Cai Jing· 2025-06-10 12:49
Core Insights - The article emphasizes the transformative impact of AI on business innovation and the necessity for companies to adapt their strategies to remain competitive in the AI era [1][4][40] Group 1: OpenAI's Journey - OpenAI was founded in 2015 by Elon Musk and Sam Altman with the mission to counteract the monopolistic tendencies of tech giants and promote open, safe, and accessible AI [4][7] - The development of large language models (LLMs) by OpenAI is attributed to the effective use of the Transformer architecture and the Scaling Law, which predicts a linear relationship between model size, training data, and computational resources [8][11] - The emergence of capabilities in models like GPT is described as a phenomenon of "emergence," where models exhibit unexpected abilities when certain thresholds of parameters and data are reached [12][13] Group 2: DeepSeek's Strategy - DeepSeek adopts a "Limited Scaling Law" approach, focusing on maximizing efficiency and performance with limited resources, contrasting with the resource-heavy strategies of larger AI firms [18][22] - The company employs innovative model architectures such as Multi-Head Latent Attention (MLA) and Mixture of Experts (MoE) to optimize performance while minimizing costs [20][21] - DeepSeek's R1 model, released in January 2025, showcases its ability to perform complex reasoning tasks without human feedback, marking a significant advancement in AI capabilities [23][25] Group 3: Organizational Innovation - DeepSeek promotes an AI Lab paradigm that encourages open collaboration, resource sharing, and dynamic team structures to foster innovation in AI development [27][28] - The organization emphasizes self-organization and autonomy among team members, allowing for a more flexible and responsive approach to research and development [29][30] - The company's success is attributed to breaking away from traditional corporate constraints, enabling a culture of creativity and exploration in foundational research [34][38]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 11:07
在这个 AI技术日新月异的时代,我们眼看着它不仅在改变生活,更在 改变着 商业规则。 AI可不只是那些冰冷的算法,它现在能像人一样思考、推理,甚至在某些方面 的表现超越了普通人 。这告诉我们,传统的技术和创新模式已经不够用了, 企业要想增长、要保持竞争力,就 需要 换个思路。 AI正在重新定义我们理解和实践商业创新的方式。 最近 , 混沌君旁听了 混沌学园的创始人李善友教授 的重磅 全新课程《认知型创新:从 OpenAI到DeepSeek》 。 这门课从企业创新的角度, 讲述了 全球两大顶尖 AI公司——OpenAI和DeepSeek是如何一步步走到今天的,他们究竟走过了怎样的创新之路。这对于我 们理解AI时代的技术创新和企业创新,提供了清晰且极具价值的路径。 教授 深挖 了 OpenAI最初的愿景和它如何对抗巨头的思路,解密大语言模型是如何诞生的 , 尤其是 AI能力如何从简单积累到惊人"涌现" 。 还 解读 了 DeepSeek如何在资源有限的情况下,走出一条"低成本高性能"的独特道路;更探讨 了 AI时代下,企业应该怎样构建一个能不断"涌现"创新的组织模式, 走向"技术领先"。 扫描下图二维码购买月卡 ...
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 07:35
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少? 这是UC伯克利大学计算机副教授 Sergey Levine 最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。 "柏拉图洞穴"是一个很古老的哲学比喻,通常被用来说明人们对世界认知的局限性。 在文章的开头,作者提到人工智能就是在研究能够反映人类智能的灵活性和适应性的假想智能。 一些研究者推测,人类心智的复杂性和灵活性源自于大脑中应用的一个 单一算法 ,通过这个算法可以实现所有多样化的能力。 也就是说,AI如果能复现这个终极算法,人工智能就能通过经验自主获取多元能力,达到人类智能的高度。 在这个探索过程中,语言模型取得了非常成功的突破。 甚至,LLMs实现能力跃升背后的算法( 下一词预测+强化学习微调 ),也非常简单。 单一终极算法 假设似乎就是AI模型的答案…… 然而,这个假设对视频模型并不适用。 语言模型与视频模型的对比 Serge ...
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 07:35
清华大学&面壁智能 投稿 量子位 | 公众号 QbitAI 端侧性价比之王,清华大学和面壁智能团队开源新模型—— MiniCP M 4 ,提供 8B、0.5B 两种参数规模, 仅使用同级别开源模型22%的训练开销 ,就达到了同级别最优性能。 MiniCPM4-8B是 开源首个开源的原生稀疏模型,5%的极高稀疏度加持,让长文本、深思考在端侧真正跑起来。 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。 MiniCPM4-0.5B 在性能上,也展现出以小博大——在MMLU、CEval、BBH、HumanEval等基准测试中,MiniCPM4.0 -0.5B性能超越同级 的Qwen-3-0.6B、Llama 3.2、Gemma3, 并通过 原生QAT技术 实现几乎不掉点的int4量化以及600Token/s的极速推理速度。 在常见端侧芯片,比如Jetson AGX Orin与RTX 4090上,MiniCPM 4可实现长文本处理的5倍常规加速与极限场景下的百倍加速。 请看VCR: 目前团队已公开发布技术报告,该模 ...
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 04:05
RaML团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后, LLM的内部机制却像一个神秘的"黑箱",让人难以捉摸其决策过程。 上海AI Lab的研究团队的近期提出Reasoning as Meta-Learning(RaML),尝试从 梯度下降 和 元学习 (Meta-Learning)的角度,揭示 了LLM如何"思考",并为优化其性能提供了新思路。 RaML的核心洞察:推理即"梯度下降" RaML框架的核心在于一个直观的类比:LLM在解决问题时生成的"推理轨迹"(即一步步推导的过程),就像模型参数在优化过程中的"伪梯度 下降"更新。 这意味着,当LLM进行多步推理时,其内部状态(即模型参数)会像典型的参数优化过程一样,逐步地"调整"和"适应",每一步都朝着更优的 解决方案逼近,直到得出最终的答案 。 研究团队通过理论推导发现,在Transformer模型中,每个推理轨迹的令牌都可以看作对参数的一次 "隐式更新" 。考虑典型的transformer块 的计算过程,当输入中增加一个推理轨迹令牌 ...
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 03:58
机器之心报道 编辑:张倩、泽南 为什么语言模型很成功,视频模型还是那么弱? 「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模型(LLM)其实是伪装的大脑 扫描仪?」 近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。 由此进一步思索,我们目前探索 AGI 的方向,是否也到了需要调整的阶段了? AI 技术在快速发展,人们对于 AI 能力的上限,以及人脑和电脑异同的思考也越来越深入。上周末, OpenAI 联合创始人 Ilya Sutskever 在演讲中就曾提到:既然大 脑是台生物计算机,那么数字计算机应该也能做所有同样的事。 然而在学术界,也有很多人持不同态度,Sergey Levine 就是一位这样的学者。 他在昨日发布的一篇博客中表示, 当前的大语言模型(LLM)只是对人类大脑和思维的间接「扫描」。这些模型如同被困在洞穴之中,只能看到人类智慧的「投 影」,并试图通过这些「投影」来逆向推导出产生它们的思维过程。这种「逆向工程」并不能代替真正的思维 。 他的观点在机器学习社区获得了不少认同。 ...
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 02:23
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 大模型目前的主导地位只是暂时的,在未来五年甚至十年内都不会是技术前沿。 这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。 就在刚刚的新加坡国立大学建校120周年 (NUS120) 之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。 其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出: 让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。 在他4月份新发表的论文《欢迎来到体验时代》也再度强调了这点,同时他表示,扩展计算才是正解。 本次NUS120演讲长达一个多小时,可谓是干货满满、信息量超大。 让我们一起来看看完整演讲内容。 LLM主导是暂时的 Sutton首先提及当前人类处于数据时代,像ChatGPT这类大语言模型,都是靠分析人类产生的大量数据 (如文本、图像、视频) 进行训 练。 但始终追逐人类思维方式,至多也只能达到 "人类水平" 。 在数学、科学等领域,人类数据里的知识已经接近极限,AI难以突破现有认知,纯靠模仿已经 ...
苹果(AAPL.O):今年Apple智能将支持更多语言,同时苹果将允许直接访问位于Apple智能核心的设备端大语言模型。
news flash· 2025-06-09 17:31
苹果(AAPL.O):今年Apple智能将支持更多语言,同时苹果将允许直接访问位于Apple智能核心的设备 端大语言模型。 ...
苹果:向第三方开发者开放AI模型
news flash· 2025-06-09 17:13
确认公司重新设计(众多)操作系统。 新版设计是"公司历史上范围最广的新设计"。 APP开发商很快就能接入预装的大语言模型(LLM)。 苹果公司:面向开发者推出苹果智能(Apple Intelligence)模型。 ...
北大携手深圳先进院推出合成生物AI大语言模型,成功获得高性能加帽酶,催化效率高于商业酶2倍
天然生物基因组编码海量的功能基因,这些基因在长期进化选择过程中,占据了广泛的序列空间,并发展 出精巧多样的功能活性,为生物体在复杂环境中的生存和繁衍提供了独特优势。 随着测序获得的生物序列累计达数十亿量级,这些潜在的功能基因也为生物制造和合成生物技术提供了基 因元件的"宝库"。然而,尽管天然基因具备极为丰富的功能和应用潜力,目前只有一小部分热门的功能基因 (如基因编辑工具酶)被高质量注释并构建了序列或结构模型。因此,基于序列、结构或深度学习的基因 挖掘和蛋白质设计方法无法拓展至复杂功能基因,限制了对高价值基因元件的挖掘与开发利用。 【SynBioCon】 获悉,针对上述问题 , 北京大学定量生物学中心钱珑 团队 于近日推出了 一款面向 合成生物学元件挖掘与生物制造应用的大语言模型 SYMPLEX , 该模型通过融合领域大语言模型训 练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件并精准 推荐其工程化应用潜力。 此外, 团队 与 中科院深圳先进技术研究院娄春波研究员 合作,将 SYMPLEX 应用于 mRNA 疫苗生物制 造关键酶—— 加帽酶的挖掘 ,成功获得多种高性能新型 ...