Llama 3.1

Search documents
Meta 对 AI 的痴迷对 AMD 来说是个好消息
美股研究社· 2025-07-09 11:25
作 者丨 LL Insights 编译 | 华尔街大事件 这种新趋势出现的时机,恰逢 AI 加速器供应结构性短缺。由于 HBM 产能紧张,英伟达的订单 排期已到 2026 年之后,云服务商急需一个可靠的备选供应商。AMD 的小芯片(chiplet)策略 使其能以更低的边际硅成本整合更多内存通道,相比单片设计的竞争对手拥有物料成本优势 —— 在 192GB 容量下,每块 GPU 能节省数万美元。当数据中心的电力和空间预算有限时,这种成本 差异在数万个节点的规模下会变得无法忽视。 软件方面的障碍也不再难以逾越。ROCm 6.2 版本新增了原生 vLLM 和 Bits-and-Bytes 支持、 FP8 内核及全新性能分析工具,在训练和推理场景下与 CUDA 的效率差距大幅缩小。Meta 公开 表示,其 Llama 3.1 的生产流量已完全由 MI300X 集群承载,这说明 AMD 的软件栈已经能胜任 最严苛的实时推理工作负载。随着越来越多开源仓库接受 HIP 代码提交,客户的切换成本会逐季 降低。 Instinct MI300X 是首款将 192 GB HBM3e 与 5.3 TB/s 带宽集成于一体的数据中心 ...
“数字读心术”精准模拟和预测人类行为
Ke Ji Ri Bao· 2025-07-06 23:34
德国亥姆霍兹慕尼黑研究中心开发出一款名为"半人马"(Centaur)的人工智能(AI)模型,能在几乎 所有心理学实验中准确预测人类行为,甚至超越了科学家数十年来打造的传统认知模型,堪称"数字读 心术"。这项研究发表在最新一期《自然》杂志上,被认为是AI与心理学融合的重要突破。 心理学家长期以来渴望找到一种既能解释人类思维方式,又能准确预测人类行为的工具。现有模型往往 局限于其中之一,"半人马"的出现改变了这一现状。 "半人马"的核心是Psych-101,这是一个包含160项心理实验中6万多人作出的超1000万个决策的数据 集。这些决策涵盖从简单的记忆任务到复杂的道德困境。每个实验都经过精心标准化,并用自然语言重 写,以便AI能够理解并从中学习。 在模型构建上,团队选用了Meta公司最新的Llama 3.1语言模型,并基于海量人类决策数据集进行了微 调,使其能预测一系列典型的行为,而不仅仅是单一行为。团队用Psych-101数据集对模型进行训练, 整个过程在高端计算机处理器上仅耗时5天。 训练完成后,团队将"半人马"模型与十余种行为预测模型进行了比较,测试对象是未参与最初训练集的 全新受试者。在32项任务中," ...
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
3 6 Ke· 2025-07-04 10:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 09:17
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁 等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。 到底是什么让一众领先模型一败涂地? LiveCodeBench Pro :一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的 实时 基准测试。 题库还 每日更新 ,来预防LLMs"背题",不得不说这太狠了(doge)。 谢赛宁虽然也参与了这项工作,但他谦虚地说自己只是个啦啦队成员。 此前有报道称,LLM编程现在已超越人类专家,但本次测试结果表明并非如此。 表现最佳的模型,在中等难度题上的一次通过率 仅53% ,难题通过率更是为0。 即使是最好的模型o4-mini-high,一旦工具调用被屏蔽,Elo也只有 2100 ,远低于真正大师级的2700传奇线。 | Model | Hard | Medium | Easy | Rating | Pct.% | AvgTok | AvgCost | | --- | --- | --- | --- | --- | --- | --- | ...
速递|2.15亿美金豪赌AI瘦身术!Multiverse压缩LLM尺寸95%,让Llama在树莓派上狂奔
Z Potentials· 2025-06-13 03:17
图片来源: Multiverse Computing 西班牙初创公司 Multiverse Computing 于 6 月 12 日 宣布 ,凭借其名为 "CompactifAI" 的技术优势, 已完成 1.89 亿欧元(约合 2.15 亿美元)的巨额 B 轮融资。 本轮 B 轮融资由 Bullhound Capital 领投,该机构曾投资过 Spotify 、 Revolut 、 Delivery Hero 、 Avito 和 Discord 等企业。参与此轮融资的还包括惠普科技风投( HP Tech Ventures )、 SETT 、 Forgepoint Capital International 、 CDP Venture Capital 、 Santander Climate VC 、东芝( Toshiba ) 以及巴斯克风险投资集团( Capital Riesgo de Euskadi - Grupo SPR )。 Multiverse 公司表示,其拥有 160 项专利和全球 100 家客户,包括西班牙电力公司 Iberdrola 、博世 集团( Bosch )和加拿大银行( Bank of C ...
云端算力竞赛新突破:创纪录英伟达GB200参与MLPerf测试,性能提升超两倍
硬AI· 2025-06-05 10:32
Core Viewpoint - The collaboration between CoreWeave, NVIDIA, and IBM has achieved the largest scale MLPerf Training v5.0 test result in history, utilizing 2496 GB200 Grace Blackwell chips, showcasing the capabilities of CoreWeave's AI-optimized cloud platform [2][3] Group 1: MLPerf Training v5.0 Test Results - The GB200 NVL72 cluster completed the training of the largest and most complex Llama 3.1 405B model in just 27.3 minutes, achieving over two times the training performance compared to similar scale clusters [3] - This test result highlights the significant performance leap provided by the GB200 NVL72 architecture and CoreWeave's strong infrastructure for consistent and high-performance AI workloads [3] Group 2: Industry Participation and Growth - The MLPerf Training v5.0 test received a record total of 201 performance test submissions from 20 organizations, indicating a new high in industry participation [6] - The introduction of the new Llama 3.1 405B large language model (LLM) pre-training benchmark has replaced the previous GPT-3 based benchmarks, reflecting the growing importance of large-scale training [5][6] - The participation of new organizations such as AMD, IBM, MangoBoost, Nebius, and SCITIX in the MLPerf Training tests has been particularly welcomed, emphasizing the increasing focus on energy efficiency in AI training systems [6]
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 09:31
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈: 尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限: Moxin-7B:从预训练到强化学习,全面透明的 AI 革新 Moxin-7B 的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循"开源科学"原则,公开了从数据 清洗到强化学习的全流程细节,从预训练到 DeepSeek 同款强化学习,成为目前透明度最高的开源 LLM 之一。 2. 高性能低成本:小模型的大能量 零样本任务:在 ARC-C(AI2推理挑战)上达到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。 数学推理:经过 RL 微调后,在 MATH-500 上准确率 68%,超越 70B 参数的Llama-3-Instruct 模型(64.6%)。 长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理 32K ...
形势有变,中概股起飞了
猫笔刀· 2025-02-04 14:22
昨天大s去世的文章里,我怀疑日本的诊疗流程有问题,然后后台评论就有不少网友引申出中日医疗对 比,要我承认中国医疗比日本医疗优秀,但这是两码事。 其实只要去互联网上搜索学习一下,就知道日本人均医疗支出大概是中国的6-7倍,日本医疗占gdp的比 例在11-12%,中国医疗占gdp的比例在6-7%。日本医保覆盖人群比例接近99%,并且报销比例高达70- 90%。 这些是宏观层面的基础数据,是客观事实,所以....摊手。在大s这件事上我怀疑涉事的日本医院和医生 有判断失当的责任,就是这样,不扩大解读。 …… 说说春节长假的重要消息,最关键的信息是特朗普启动了对中国、墨西哥、加拿大的加税,墨西哥和加 拿大各加25%,中国加10%。这三个国家是美国排名前三的进口国,规模都在4000亿美元以上,并且全 部是对美贸易顺差国。 消息确认后三个国家先后做出反应,加拿大和墨西哥声称要对美国对等报复加税,但是最新消息特朗普 宣布暂缓30天实施,给双边谈判留出了一个月的时间。 中国国务院2月4日(今天)在财政部网站上公告, 自2025年2月10日起,对原产于美国的部分进 口商品加征关税:对煤炭、液化天然气加征15%关税,对原油、农业机 ...
晚点财经丨特斯拉毛利率最好别再跌了;LVMH二季度业绩会提了48次中国;多地商贷利率逼近公积金
晚点LatePost· 2024-07-24 15:33
特斯拉毛利率最好别再跌了 LVMH 二季度业绩会提了 48 次中国 多地商贷利率逼近公积金 日本和中国台湾遭遇新一轮新冠疫情 最大规模基本收入研究结果出炉 关注《晚点财经》并设为星标,第一时间获取每日商业精华。 特斯拉毛利率最好别再跌了 最巅峰的时候,特斯拉是汽车行业利润率最高的公司,一度超过了劳斯莱斯,这让它在必要时可以牺牲 利润换销量。 现在特斯拉已经降得快没多少利润空间了。管理层在业绩会上只提了一次 "利润率",是 CFO Vaibhav Taneja 在开场发言环节讲的,"总体而言,我们汽车利润率环比持平"。 今年二季度,特斯拉扣除积分收入后的汽车销售毛利率约为 14.6%、为近五年新低。如果再扣掉租赁业 务,纯汽车销售毛利率进一步降至 13.86%。前两天发二季报的 "传统汽车公司" 通用汽车,大约是 12.2% 的汽车销售毛利率,比高点少了一半多。 如果我们再苛刻一点,把分别占收入 3.5% 和 1.4% 的积分和利息收入去掉,特斯拉二季度极端假设下的 营业利润率还有大约 1.4%(财报口径是 6.3%)。 业绩发布后,特斯拉股价重挫 12%。 二季度总收入 255 亿美元,其中汽车销售收入(不含 ...