Workflow
混合专家模型
icon
Search documents
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 01:26
机器之心发布 机器之心编辑部 《大规模语言模型:从理论到实践(第 2版)》 是一本理论与实践并重的专业 技术书 ,更是 AI时代不可或缺的知识工具书。 任何人 都能在本 书中找到属于自己的成长路径。 在人工智能浪潮席卷全球的今天,大语言模型正以前所未有的速度推动着科技进步和产业变革。从 ChatGPT 到各类行业应用,LLM 不仅重塑 了人机交互的方式,更成为推动学术研究与产业创新的关键技术。 面对这一飞速演进的技术体系,如何系统理解其理论基础、掌握核心算法与工程实践,已成为每一位 AI 从业者、研究者、高校学子的必修课。 2023 年 9 月,复旦大学张奇、桂韬、郑锐、黄萱菁研究团队面向全球学术界与产业界正式发布了《大规模语言模型:从理论到实践》。短短 两年,大语言模型在理论研究、预训练方法、后训练技术及解释性等方面取得了重要进展。业界对大语言模型的研究更加深入,逐渐揭示出许多 与传统深度学习和自然语言处理范式不同的特点。例如, 大语言模型仅需 60 条数据就能学习并展现出强大的问题回答能力,显示了其惊人的 泛化性 。然而,本书作者们也发现大语言模型存在一定的脆弱性。例如, 在一个拥有 130 亿个参数的模 ...
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 13:01
自今年二月起,DeepSeek 便因其开源旗舰级推理模型DeepSeek-R1 而引发全球瞩目——该模型性能 堪比全球前沿推理模型。其独特价值不仅体现在卓越的性能表现,更在于仅使用约2000块NVIDIA H800 GPU 就完成了训练(H800 是H100 的缩减版出口合规替代方案),这一成就堪称效率优化的 典范。 几天后,Elon Musk 旗下xAI 发布了迄今最先进的Grok-3 模型,其性能表现略优于DeepSeek-R1、 OpenAI 的GPT-o1 以及谷歌的Gemini 2。与DeepSeek-R1 不同,Grok-3 属于闭源模型,其训练动用 了惊人的约20万块H100 GPU,依托xAI "巨像"超级计算机完成,标志着计算规模实现了巨大飞跃。 xAI "巨像" 数据中心 Grok-3 展现了无妥协的规模扩张——约200,000块NVIDIA H100 显卡追求前沿性能提升。而 DeepSeek-R1 仅用少量计算资源就实现了相近的性能,这表明创新的架构设计和数据策展能够 与蛮力计算相抗衡。 效率正成为一种趋势性策略,而非限制条件。DeepSeek 的成功重新定义了AI扩展方式的讨 论。我 ...
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
量子位· 2025-04-06 02:33
白交 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI不过周末,硅谷也是如此。 大周日的,Llama家族上新,一群LIama 4就这么突然发布了。 这是Meta首个基于MoE架构模型系列,目前共有三个款: Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。 最后一个尚未推出,只是预告,但Meta已经毫不避讳地称前两者是 "我们迄今为止最先进的型号,也是同类产品中最好的多模态型号" 。 与此同时,大模型竞技场排名迎来一轮更新。 此次发布的Llama 4 Maverick,在困难提示、编码、数学、创意写作方面并列第一;得分1417,不仅大大超越了此前Meta自家的Llama-3- 405B (提升了149分) ,还成为史上第4个突破1400分的模型;。 详细来看一些关键词—— Llama 4 Scout ,16位专家的170亿激活参数的多模态模型, 单个H100 GPU可运行 , 同类SOTA,并拥有10M上下文窗口 Llama 4 Maverick ,128位专家的170亿激活参数多模态模型,击败GPT-4o和Gemini 2.0 Flash,与DeepS ...
后DeepSeek时代,中国AI初创企业商业模式大调整
硬AI· 2025-03-25 12:41
硬·AI 作者 |张雅琦 从Kimi、零一万物、百川智能到智谱AI,这些初创企业有的尝试多条业务线,有的试图削减支出,并采用DeepSeek的模 型。"DeepSeek促使许多公司将资源重新导向应用,而不是基础模型开发。" "DeepSeek促使许多公司将资源重新导向应用,而不是基础模型开发。" 01 中国初创AI企业战略调整 纷纷将资源导向应用 点击 上方 硬AI 关注我们 编辑 | 硬 AI DeepSeek的崛起正在重塑中国的AI行业,迫使各家初创企业调整其战略。 从Kimi、零一万物、百川智能到智谱AI,这些初创企业有的尝试多条业务线,有的试图削减支出,并停止 大语言模型的"预训练",采用DeepSeek的模型;还有一些在专注于拓展企业销售业务的同时,将希望寄 托于首次公开募股(IPO),以维持其高资金投入的增长模式。 "中国LLM市场正在迅速整合,集中在少数几家领先者手中," Hugging Face的工程师王铁震表示: 还有大模型初创公司百川智能,目前将业务重心放在了医疗保健领域。 当时,公司管理层向员工宣布,他 们正在专注于为医院开发其技术,其中包括一个协助诊断的AI医生。 由清华大学计算机科学 ...