Workflow
注意力机制
icon
Search documents
英伟达,我命由天不由我
虎嗅APP· 2025-03-07 10:35
以下文章来源于衣公子的剑 ,作者衣公子 衣公子的剑 . 以文会友,做爱读的商业科普。前在国际知名咨询公司,后在国内头部金融机构,现在做战略咨询&精 品投行。 本文来自微信公众号: 衣公子的剑 ,作者:衣公子,题图来自:视觉中国 一、悔创英伟达 身处硅谷的英伟达,一直奉行不输中国同行的996。黄仁勋很少解雇员工 (和马斯克比) ,但是对员工的 言语辱骂、公开羞辱,是出名的恶毒。在英伟达,项目失败,就有"公开处决"。上百高管靠墙站,负责人站 出来,解释每个出错的环节,接受黄仁勋严厉刻薄的分析。一连几小时,所有人不许走。气氛浓烈,黄仁 勋放声怒吼,"你工资领了多少?"、"全部退回来!" 员工评价,和黄仁勋相处,就像"把手放进插座"。 对内如此,对外就更狠了。 英伟达擅长挖角,大量投奔而来的工程师,"带来"创意。S3、硅图、3dfx、Matrox纷纷提起诉讼,指控英伟 达诱导员工违反保密协议,侵犯专利。后来,三家接受和解,而英伟达最大的竞争对手3dfx拒绝和解,要诉 讼到底。关键时刻,3dfx的财报亏损,电话会透露本季亏损1亿美元。 仅仅一个小时后,英伟达宣布对3dfx反诉,指控3dfx侵犯多项英伟达专利。 英伟达这 ...
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 14:21
"从开源论文、开源代码出发,现在已经进化到开源思维链了嘛!" 文丨Andrew Lu 注释丨贺乾明 程曼祺 2 月 18 日,Kimi 和 DeepSeek 同一天发布新进展,分别是 MoBA 和 NSA,二者都是对 "注意力机 制"(Attention Mechanism)的改进。 今天,MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖,自述研发过程的三次踩坑,他称为 "三入思过 崖"。他在知乎的签名是"新晋 LLM 训练师"。 这条回答下的一个评论是:"从开源论文、开源代码出发,现在已经进化到开源思维链了嘛。" 注意力机制之所以重要,是因为它是当前大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启 LLM 革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一 切),该论文被引用次数至今已达 15.3 万。 注意力机制能让 AI 模型像人类一样,知道在处理信息时该 "重点关注" 什么、"忽略" 什么,抓住信息中最 关键的部分。 在大模型的训练阶段和使用(推理)阶段,注意力机制都会发挥作用。它的大致工作原理是 ...