Workflow
大型语言模型
icon
Search documents
黄仁勋,卖卖卖!身家超巴菲特
Sou Hu Cai Jing· 2025-07-12 04:13
作为全球领先的GPU(图形处理器)制造商,英伟达的硬件广泛应用于AI训练、推理和大型语言模型 的部署,成为OpenAI、谷歌、Meta等科技巨头首选的基础设施。今年以来,英伟达市值不断创出新 高,在上周三更是首次突破4万亿美元大关,成为历史上首家达此市值的公司,超越微软和苹果。 在公司市值站上历史性高点的同时, 黄仁勋本周继续按计划减持公司股票。当地时间7月11日,美国证 券交易委员会(SEC)公布的文件显示,黄仁勋最新减持公司股票7.5万股。7月以来,黄仁勋于7月1日 至3日,以及7月7日至11日,每日抛售7.5万股股票,合计抛售约60万股,价值约9600万美元。 在此之前,英伟达向美国证券交易委员会(SEC)提交的文件显示,公司CEO黄仁勋本轮减持自6月20 日开始,6月已累计减持45万股英伟达股票。尽管有所减持,文件显示,黄仁勋通过直接和间接方式, 在不同的合伙企业和信托中仍持有超过8.58亿股英伟达股票。 这一减持行为是黄仁勋依据10b5-1规则制定的交易计划的组成部分。该规则允许上市公司高管在预设条 件下出售股票,避免违反内幕交易相关规定。黄仁勋于今年3月披露了这一交易计划,计划在2025年内 总共 ...
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 11:38
以下文章来源于晚点科技 ,作者晚点团队 晚点科技 . 晚一点,好一点 今年 4 月,《晚点 LatePost》曾访谈 AI Agent 创业公司 Pokee.ai 创始人朱哲清, 他分享了强 化学习如何用于构造 Agent 。 我们了解到,Pokee.ai 近期完成种子轮融资,募资额约 1200 万美元。投资人包括对冲基金 Point72 旗下风险投资机构 Point72 Ventures、芯片公司高通的风投部门 Qualcomm Ventures, 以及英特尔 CEO 陈立武、前 Adobe CTO Abhay Parasnis 和前 Tinder CTO Maria Zhang。 Pokee.ai 去年 10 月成立,最近也只有 7 名员工。创始人朱哲清告诉我们,完成融资后 Pokee.ai 不计划大规模扩招,短期内研发员工数量不会超过 10 人。资金将用于扩张其 Agent 产品 Pokee 的可选工具集、加快对大公司客户销售。 创立 Pokee.ai 之前,朱哲清曾任 Meta "应用强化学习" 部门负责人,用强化学习算法改善内容推荐系 统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 ...
硅谷抢人大战!OpenAI连抢特斯拉等巨头四名大将
21世纪经济报道· 2025-07-09 03:10
Core Viewpoint - The ongoing competition for AI talent in Silicon Valley is intensifying, with OpenAI successfully recruiting key personnel from Tesla, xAI, and Meta, highlighting the scarcity of top AI experts in the industry [1][2]. Group 1: Talent Acquisition - OpenAI has hired four significant AI figures from Tesla, xAI, and Meta, including David Lau and Uday Ruddarraju, indicating a strategic move to bolster its capabilities [1]. - Meta has initiated aggressive recruitment efforts, including direct outreach via WhatsApp and substantial salary offers, to build a new AI lab aimed at accelerating the development of General Artificial Intelligence (AGI) [2]. - Reports indicate that the demand for AI-skilled positions has grown by 21% annually since 2019, significantly outpacing the supply of qualified candidates [2]. Group 2: Salary and Compensation - Meta is reportedly offering salaries significantly above market averages to attract top AI researchers, with compensation for AI engineers ranging from $186,000 to $3.2 million, compared to OpenAI's range of $212,000 to $2.5 million [4]. - There are claims that Meta offered signing bonuses as high as $100 million to lure OpenAI employees, although Meta's CTO downplayed these figures, stating they apply only to a select few senior positions [3][4]. Group 3: Industry Impact - The competition for AI talent is described as reaching a "professional competitive level" in Silicon Valley, with estimates of the number of top AI experts globally being less than 1,000 [2]. - The recruitment of key personnel from Apple, such as Pang Ruoming, to Meta's new AI team may lead to further instability within Apple's AI divisions, as other engineers express intentions to leave [4].
选择合适的大型语言模型:Llama、Mistral 和 DeepSeek
3 6 Ke· 2025-06-30 05:34
Core Insights - Large Language Models (LLMs) have gained popularity and are foundational to AI applications, with a wide range of uses from chatbots to data analysis [1] - The article analyzes and compares three leading open-source LLMs: Llama, Mistral, and DeepSeek, focusing on their performance and technical specifications [1] Group 1: Model Specifications - Each model series offers different parameter sizes (7B, 13B, up to 65-70B), with the number of parameters directly affecting the computational requirements (FLOP) for inference [2] - For instance, Llama and Mistral's 7B models require approximately 14 billion FLOP per token, while the larger Llama-2-70B model requires about 140 billion FLOP per token, making it ten times more computationally intensive [2] - DeepSeek has a 7B version and a larger 67B version, with similar computational requirements to Llama's 70B model [2] Group 2: Hardware Requirements - Smaller models (7B-13B) can run on a single modern GPU, while larger models require multiple GPUs or specialized hardware [3][4] - For example, Mistral 7B requires about 15GB of GPU memory, while Llama-2-13B needs approximately 24GB [3] - The largest models (65B-70B) necessitate 2-4 GPUs or dedicated accelerators due to their high memory requirements [4] Group 3: Memory Requirements - The raw memory required for inference increases with model size, with 7B models occupying around 14-16GB and 13B models around 26-30GB [5] - Fine-tuning requires additional memory for optimizer states and gradients, often needing 2-3 times the memory of the model size [6] - Techniques like LoRA and QLoRA are popular for reducing memory usage during fine-tuning by freezing most weights and training fewer additional parameters [7] Group 4: Performance Trade-offs - In production, there is a trade-off between latency (time taken for a single input to produce a result) and throughput (number of results produced per unit time) [9] - For interactive applications like chatbots, low latency is crucial, while for batch processing tasks, high throughput is prioritized [10][11] - Smaller models (7B, 13B) generally have lower per-token latency compared to larger models (70B), which can only generate a few tokens per second due to higher computational demands [10] Group 5: Production Deployment - All three models are compatible with mainstream open-source tools and have active communities [12][13] - Deployment options include local GPU servers, cloud inference on platforms like AWS, and even running on high-end CPUs for smaller models [14][15] - The models support quantization techniques, allowing for efficient deployment and integration with various service frameworks [16] Group 6: Safety Considerations - Open-source models lack the robust safety features of proprietary models, necessitating the implementation of safety layers for deployment [17] - This may include content filtering systems and rate limiting to prevent misuse [17] - Community efforts are underway to enhance the safety of open models, but they still lag behind proprietary counterparts in this regard [17] Group 7: Benchmark Performance - Despite being smaller, these models perform well on standard benchmarks, with Llama-3-8B achieving around 68.4% on MMLU, 79.6% on GSM8K, and 62.2% on HumanEval [18] - Mistral 7B scores approximately 60.1% on MMLU and 50.0% on GSM8K, while DeepSeek excels with 78.1% on MMLU and 85.5% on GSM8K [18][19][20] - The performance of these models indicates significant advancements in model design and training techniques, allowing them to compete with larger models [22][25]
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 03:18
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出 局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规 划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型 OpenAI o3 的帮助下, DVD 以这一简洁有效的 agentic 框架 在非常具 有挑战性的 LVBench 上以 74.2% 的准确率大幅超越了之前的工作。这一工作将以 MCP Server 的形式开源。 | welcome to the leaderboard of the Lybench! Tou can prepare your submission by following the instructions; | | | | | | | | | | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | - ...
Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
机器之心· 2025-06-29 04:23
机器之心报道 编辑:杜伟、大盘鸡 今天,著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文,称 「对于 LLM 及其所谓能理解和推理的神话 来说,情况变得更糟了 —— 而且是糟糕得多。」 这项研究揭示了一种被称为「波将金式」(Potemkins)的推理不一致性模式(见下文图 1)。研究表明,即使是像 o3 这样的顶级模型也频繁犯此类错误。基于这 些连自身论断都无法保持一致的机器,你根本不可能创造出通用人工智能(AGI)。 Gary Marcus 认为, 这宣告了任何试图在纯粹 LLM 基础上构建 AGI 希望的终结。 最后,他还 @了 Geoffrey Hinton,称后者要失败(checkmate)。 接着,Gary Marcus 又接连发推,分享了他对这篇论文的更多看法。 他称基于非正式测试,发现像 o3 这类模型似乎较不容易陷入简单的「波将金式错误」,但并非完全免疫。 正如论文所言:在基准测试上的成功仅证明了「波将金式理解」:一种由「与人类对概念的理解方式完全不可调和的答案」所驱动的理解假象…… 这些失败反映 的不仅是理解错误,更是概念表征深 ...
Karpathy 最新演讲精华:软件3.0时代,每个人都是程序员
歸藏的AI工具箱· 2025-06-19 08:20
播客内容由 Listenhub 生成 Andrej Karpathy 昨天在 YC 的旧金山创业大会上发表了一场 40 分钟的演讲。 软件行业正在经历的范式转变。介绍了软件从传统编码(软件 1.0)到神经网络(软件 2.0)的演变,并着重 阐述了由大型语言模型(LLMs)驱动的软件 3.0 时代。 他认为, 我们应该专注于构建"钢铁侠战甲"(增强工具),而不是"钢铁侠机器人"(完全自主Agent) 这些 产品应具备自定义 GUI 和用户体验,以加速人类的生成-验证循环,同时仍提供自主性滑块,允许产品随时间 变得更加自主。 软件开发范式1.0、2.0和3.0的定义是什么 软件 1.0:传统代码 定义和构成: 软件1.0是程序员用诸如Python、C++等编程语言直接编写的明确指令12。每一行代码都是程 序员为计算机设定的具体任务指令,使其在数字空间中执行特定功能12。它是我们所熟悉的"经典软件栈"2。 编程方式: 人类通过编写源代码(例如.cpp文件)来直接编程23。源代码随后被编译成可执行的二进制文件 3。 代码库示例: GitHub可以被视为软件1.0代码的"地图"或等同物,展示了所有这些通过指令编写的代码 ...
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 06:09
机器之心报道 编辑:+0 人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大 众,让全球数亿人能够通过自然语言进行创作、编程和推理。 LLM 的技术版图正以前所未有的速度扩张,从不断刷新型号的「模型竞赛」,到能够自主执行任务的智能体,技术的浪潮既令人振奋,也带来了前所未有 的挑战。 如何在海量信息中建立真正的认知深度,而非仅仅成为一个热点的追随者?也许可以从「做题」开始。 最近,MIT CSAIL 分享了一份由工程师 Hao Hoang 编写的 LLM 面试指南,精选了 50 个关键问题,旨在帮助专业人士和AI爱好者深入理解其核心概念、 技术与挑战。 文档链接:https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view 我们将这 50 个问题划分为了几大主题,并附上图示和关键论文。希望这份指南能成为您的「寻宝图」,助您开启 LLM 探索之旅,无论是在面试中,还是 在未来的技术浪潮中,都能保持清醒的认知和持续探索的热情。 LLM 发 展历程。 ...
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
为了打破这一局面,美国国防高级研究计划局今年4月启动了"指数性数学"计划,旨在开发一种能 极大提升数学研究效率的人工智能(AI)"合著者"系统。 几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人 类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿 沟。 解决重大难题仍力不从心 大型语言模型(LLM)并不擅长数学。它们常常出现"幻觉",甚至可能被误导相信2+2=5。但新一 代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。 今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去"一锤定音"式的输 出,这些模型开始尝试模拟数学家逐步推理的思考过程。 同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌"深度思 维"的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛 银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与 ...