Llama系列模型

Search documents
华人2亿美元年薪破界,AI竞赛冰火两重天
Sou Hu Cai Jing· 2025-07-11 06:03
有消息称,Meta此次从苹果挖角庞若鸣,主要是为其新设立的"超级智能实验室"壮大研发团队 AI转型意味着大量的传统IT工作者将被取代。摄/金焱 微软的大规模裁员并全力转向AI领域的做法并非孤例,而是当前全球科技界的缩影。当AI技术及应用呈爆发式增长之际,全球几乎所有大型科技企业都 在调整人力结构,旨在降低开支并将资源倾向于AI。自2023年以来,亚马逊累计削减了2.7万个岗位,多个传统岗位已全面实现AI化。与此同时,谷歌、 Meta 和 IBM 等科技公司,也在2024年不同程度地进行了裁员,且不乏"AI岗位取代传统岗位"的案例,包括Meta正在用自研大语言模型提升内容审核效 率,减少人工审核团队的规模。 在谷歌任工作首席软件工程师超过15年后,2021年,庞若鸣加盟苹果,后升任基础模型团队(AFM)负责人,领导约100名工程师推进多模态大语言模型 的研发,打造支持苹果AI和下一代Siri的大模型,并负责包括Genmoji和邮件摘要等Apple Intelligence核心功能。在苹果期间,他的主要工作涉及了大模型 全流程开发,包括预训练架构设计、后训练调优及推理效能提升,以及多模态能力构建,即开发同时理解与 ...
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
量子位· 2025-06-05 10:28
STA团队 投稿 量子位 | 公众号 QbitAI 如果你面前有两个AI助手:一个能力超强却总爱"离经叛道",另一个规规矩矩却经常"答非所问",你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。但我们真正追求的,并不是在"聪明但难 控"与"听话但愚钝"之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。 ACL 2025中选论文中,来自浙江大学与腾讯的联合团队提出了新思路: Steering Target Atoms (STA),尝试为大模型注入"行为定向 剂",助力对模型行为的精准调控,为构建既聪明又听话的AI打下基础。 该方法通过"原子级"粒度对大模型进行行为编辑干预,实现了更鲁棒、更安全的生成控制。 在Gemma和LLaMA系列模型上的实验表明,STA方法能够有效抑制越狱攻击带来的违规输出,同时不削弱模型在正常问题回答中的高质量智 能表现。 大模型行为控制的挑战与突破 在参数训练完成后,很多应用场景会需要在推理阶段调整模型的特定行为,例如让模型拒绝用户的恶意请求。 然而,模型的"安全防御"能力往往和它的"通用智能"能力 ...
Meta、微软掌门人最新对谈:AI浪潮带来软件开发革命
Hu Xiu· 2025-05-07 07:45
4月30日,Meta CEO Mark Zuckerberg 和微软CEO Satya Nadella在LlamaCon 2025 闭幕会议上进行了一场 精彩对话。 本次对话从历史视角切入,将 AI 定位为继客户端服务器、互联网与云之后的又一次重大技术平台革 命,并剖析了其驱动下的效率飞跃与成本优化趋势。对话深入讨论了微软在开源与闭源模型间的战略平 衡、Azure 云平台在赋能开发者构建 AI 应用中的核心作用,以及 AI Agent 在重塑软件开发和知识工作 流程方面的潜力。此外,双方还探讨了 AI 驱动下的未来工具形态、模型蒸馏技术的机遇与挑战等话 题。 以下是本次对话实录,经数字开物团队编译整理。 一、AI浪潮带来新一轮技术平台革命 Mark Zuckerberg:非常荣幸能邀请到 Satya。你引领 Microsoft 这家伟大的科技公司实现了惊人转型, 推动公司向 AI、云等重要领域发展。对于我们所做的开源工作,你一直是我们的朋友和盟友。我非常 珍视我们长期的伙伴关系,也感谢你就 Llama 生态系统及基础设施建设给予的建议。 Satya Nadella:谢谢你,Mark。我的荣幸。我还记得大约 2 ...
中国AI模型全面爆发,AI大模型技术体系综合开源影响力榜单重磅发布!
AI科技大本营· 2025-04-18 05:53
一提到"大模型",很多人的第一反应往往是那个既能聊天,又会写代码、画画的"模型本身"。但其 实,大模型远不止是一个"能输出结果的程序"这么简单,其背后有一整套复杂而庞大的技术体系作为 支撑:从大规模、高质量、多样化的数据,到先进的模型架构与训练策略,再到推理部署、资源调度 等支撑落地的系统能力,以及不可或缺的科学评测机制。大模型更像是一个由模型、数据、系统、评 测平台 等多要素构成的"技术共同体",而非单一模块的堆叠。 如今在闭源技术壁垒与高昂商用门槛的对比下,开源大模型正迅速崛起,成为推动 AI 技术普惠化的 重要力量。但面对层出不穷的开源 AI 模型技术,我们该如何选型?不同的模型技术体系又各有怎样 的优势与短板? 在这一背景下,为系统呈现全球大模型生态的开源发展现状,CSDN 联合多家机构于 4 月 18 日在 2025 全球机器学习技术大会(ML-Summit 2025)现场重磅发布《AI 大模型技术体系综合开源影响 力榜单》,全面评估全球范围内开源大模型技术体系的贡献与影响力,旨在为行业提供参考坐标,推 动开源创新持续前行。 注:这里大模型是指 主要包括 decoder-only 以来的模型结构,包 ...
图灵奖得主LeCun:人类智能不是通用智能,下一代AI可能基于非生成式
量子位· 2025-04-14 09:09
一水 发自 凹非寺 量子位 | 公众号 QbitAI 人类智能并非通用智能。 我们的大脑是进化的产物,只擅长解决对生存有用的问题,而不是真正"通用"的计算…… 在最新一档播客节目中,Meta首席AI科学家&图灵奖得主 LeCun 发表了如上观点。 他表示,AGI(通用人工智能)一词非常具有误导性,但人类智能本质是非通用的,它非常专业。 更有意思的是,当大家都在谈论生成式AI时,他却凭借直觉大胆预测: 下一代AI的突破可能基于非生成式。 同时他还再次cue到了DeepSeek,并直言对于这个走红硅谷的新事物, 他们这些长期深耕AI领域的人实则并不感到意外 。 整场节目中,LeCun与两位主持人的讨论涵盖了从大语言模型 (LLMs) 的局限性到人工智能研究的下一个范式转变等主题,重点关注了推理、 规划和世界建模等概念。 省流版如下: 与此同时,量子位在不改变原意的基础上,对部分问题进行了翻译整理。 "下一代AI可能基于非生成式 " Q: 如何看待一边是收益递减,一边是企业们纷纷押注生成式AI? LeCun: 毫无疑问,生成式AI很有用,尤其是编程助手之类的。近来人们正在讨论Agent系统,但它还并不完全可靠。 从 ...
速递|筹集400亿美元后,OpenAI宣布开源模型回归计划,推理能力模型即将面世
Z Potentials· 2025-04-01 03:49
OpenAI 于 3 月 31 日周一宣布,即将在未来数月推出自 GPT-2 以来首个具备推理能力的开源模型。 OpenAI 同时宣布完成了历史上最大的私人融资之一,以 3000 亿美元的估值筹集了 400 亿美元。 约 180 亿美元的资金将用于 OpenAI 的 Stargate 基础设施项目,该项目旨在在美国建立一个人工智能数据中心网络。 图片来源: OpenAI 奥特曼在周一下午的 X 平台上扩展了 OpenAI 的开放模型计划,表示 OpenAI 即将推出的开放模型将具备"推理"能力,类似于 OpenAI 的 o3-mini 。 OpenAI 表示,它计划在"未来几个月"发布自 GPT-2 以来的第一个"开放"语言模型。 OpenAI 计划举办开发者活动以收集反馈,并在未来展示模型的原型。第一次开发者活动将在几周内在旧金山举行,随后将在欧洲和亚太地区进行会议。 在最近的一次 Reddit 问答中, OpenAI 的 CEO 奥特曼表示,他认为 OpenAI 在开源其技术方面方向有调整空间。 " 我个人认为我们需要找到一种不同的开源策略, "奥特曼说。"并不是所有 OpenAI 的人都持这种观点,这也 ...