语言模型

Search documents
一个「always」站在大模型技术C位的传奇男子
量子位· 2025-05-10 02:39
西风 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 怎么老是你??? (How old are you) 这是最近网友不断对着 Transformer八子之一的Noam Shazeer (为方便阅读 ,我们称 他为沙哥) 发出的灵魂疑问。 尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后,有网友发现,其中提到的3-token 因果卷积相关内容,沙哥等又早在三年前就有相关研究。 是的," 又 "。 因为你只要梳理一遍他的工作履历,就不难发现,AI界大大小小的突破背后,总是能发现他的名字。 "不是搞个人崇拜,但为什么总是Noam Shazeer?" △ 网友称右下角沙哥图由GPT-4o生成 朱泽园也自己也站出来表示,沙哥成果超前: 我也觉得Shazeer可能是个时间旅行者。 我原本不相信他们的gated MLP (在写第3.3部分的时候,因为门控多层感知机让训练不稳定) ,但现在我信服了 (在添加了Canon 层之后,我们在第4.1部分对比了多层感知机和门控多层感知机) 。 正式认识一下,沙哥是谁? 他是 Transformer八 ...
马来西亚,下一个全球数据中心霸主?
财富FORTUNE· 2025-05-09 13:03
马来西亚柔佛州即将建成的"探索新城"办公楼的内部设计效果图。图片来源:Courtesy of ZA 19世纪40年代,新加坡的华人先民横渡柔佛海峡(Johor Strait),在马来西亚柔佛州的原始丛林中披荆 斩棘,建立起绵延不绝的黑胡椒种植园。20世纪的英国殖民时期,这些胡椒农场逐渐被广袤的橡胶林与 油棕榈园所取代。如今,在同一片土地上,柔佛州正在悉心培育数字时代的新型经济作物——为缓解全 球算力饥渴而建设的人工智能数据中心群。 柔佛的数据中心建设狂潮,与当年改种胡椒的产业转型如出一辙,根源都在新加坡的资源瓶颈。这个城 邦国家虽然贵为东南亚的数字中枢,却连水电供给都依赖进口。2019年,因为庞然巨物般的数据中心不 仅消耗大量水资源,更消耗了新加坡7%的电力,政府不得不叫停新建项目。投资方与运营商旋即跨海 而来,在土地成本优势显著、能源供给充沛,以及矢志助推数字经济发展的马来西亚落子布局。 而柔佛跻身数据中心重镇的另一关键推力,在于全球算力争夺战的白热化。尽管新加坡在2022年1月已 经放开数据中心禁令,但岁末ChatGPT的震撼问世引爆全球人工智能基础设施需求,也在马来西亚掀起 新一轮的投资狂潮。房地产咨询 ...
澳洲会计师公会调查:科技创新成为中国内地小微企业增长新动能
Zheng Quan Ri Bao Wang· 2025-05-09 11:44
Core Insights - The Australian CPA's latest survey indicates a strong recovery in the performance of small and micro enterprises in mainland China, reaching peak levels since 2019, primarily driven by continuous investment in technology and innovation [1][2] Group 1: Business Growth and Expectations - 66% of surveyed small and micro enterprises in mainland China reported business growth in 2024, with 71% expecting growth in 2025, both figures being the highest recorded since 2019 [1] - 88% of respondents plan to launch new products or services in 2025, exceeding the Asia-Pacific average by 16 percentage points [1] - 51% of small and micro enterprises anticipate an increase in overseas revenue in 2025 [1] Group 2: Technology Adoption - 42% of surveyed enterprises invested in AI in 2024, with 37% seeking business advice through AI tools and platforms, leading most Asia-Pacific markets [1][2] - The demand for cutting-edge technologies like AI language models and intelligent robots is expected to continue driving the accessibility of these technologies [2] Group 3: Financing and Support - 91% of surveyed enterprises sought external financing in 2024, ranking first among all Asia-Pacific markets [3] - Government initiatives, including the deepening of inclusive financial systems and optimization of non-repayment renewal policies, have created more efficient and flexible financing channels for small and micro enterprises [3] - The new policies are projected to further provide a relaxed financing environment, alleviating cash flow pressures and laying a solid foundation for rapid growth and stable development [3]
虞晶怡教授:大模型的潜力在空间智能,但我们对此还远没有共识
3 6 Ke· 2025-05-09 09:34
以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会从信息社会向智能社会转变。全世界热切期待AI到 来的同时,也非常关心人工智能将带来哪些新机遇、新挑战。 为此,我们发起了一项《AI & Society 百人百问》研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI投资人,以及社会学家、心理学家、国际关系专家、 科幻作家等,用多元视角,深入研讨人工智能技术引发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着"助人发展,与人为善"的方 向可持续发展。 本期,我们非常荣幸地于4月16日邀请虞晶怡老师,为我们开启一次AI的思想远航。 精华要点: 6.感知优先的颠覆性技术路线:感知能解决的问题绝不依赖复杂认知。感知是最直接、成本最低的方案。" 7.空间智能发展的理论困境:三维表达方式千变万化,远未达成共识。如果表达不统一,采集再多数据也难奏效。 8.传感器技术的革命性突破:我认为今后的感知系统将发生巨变——能同时观测物体正反面的全新成像系统。 9.重新定义机器人设计:具身智能追求的不是精准,而是鲁棒和安全。这涉及全新的数学度量标准。 10.泡沫不可避免,OpenAI ...
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 09:02
论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。 这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。 使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现, 和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。 本文第一作者王宜平是华盛顿大学的博士生,其导师、通讯作者杜少雷为华盛顿大学Assistant Professor;另外两位通讯作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。 最近, 大型语言模型(LLM)在推理能力方面取得了显著进展,特别是在复杂数学任务上。推动上述进步的关键方法之一就是带可验证奖励的强化学习 (Reinforcement Learni ...
Shopify(SHOP.US)FY25Q1电话会:支付业务在营收中的占比逐渐扩大或影响毛利率
智通财经网· 2025-05-09 08:14
智通财经APP获悉,近日,Shopify(SHOP.US)召开FY25Q1的财报电话会。公司提到,目前GMV没有受 到有意义的影响,4 月和 5 月初业务表现强劲,延续了第一季度的良好态势。但目前环境动态变化,关 税的影响程度和时间还难以确定。 一季度Shopify实现收入同比增长 27%。其中商家解决方案收入增长 29%,主要受益于GMV增长及 Shopify Payments 渗透率(达 64%);订阅解决方案收入增长 21%,由商家入驻数量增加及 Plus 定价调整 推动。 Shopify指,在订阅收入方面,毛利率一直比较稳定,维持在 80% 左右,上下浮动几个基点,且预计不 会改变。在商户解决方案方面,PayPal 是其中一部分,但未对其影响进行量化。支付业务在营收中的 占比越来越大,这对毛利率有一定逆风影响,尤其是大型商户 GMV 增加时。 在市场拓展与商家合作方面,Shopify新增欧洲多国支付覆盖,欧洲GMV增速超本土市场 3 倍。VF集团 (Dickies、Kipling等8个品牌)、Follett 教育集团(北美 1,000+ 高校书店)等头部商家入驻加入平台。 Q&A 问答 Q:商家的 G ...
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线· 2025-05-09 05:18
整理 | 华卫 近日,阿里巴巴的研究人员在 Hugging Face 上发布了一种名为"ZeroSearch"的新技术,可以大大降低训练 AI 系统进行信息搜索的成本和复杂度,完全 消除对昂贵商业搜索引擎 API 的需求。 研究人员表示,"强化学习(RL)训练需要频繁进行部署,可能会涉及到数十万次搜索请求,这会产生巨额的 API 费用,严重限制了可扩展性。" 据介绍,这项新技术是一种强化学习框架,允许大语言模型 (LLM) 通过模拟的方式开发高级搜索功能,而无需在训练过程中与真实的搜索引擎进行交 互。并且,其表现优于基于真实搜索引擎的模型,同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式,又可以为其节省大 量的 API 费用。 该技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且无论是基础模型还是经过指令调整的模型都能应用,无需单独的监督预热阶段,并与近 端策略优化 (PPO)、组相对策略优化 (GRPO)等各种 RL 算法兼容。目前,研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集 和预训练模型,允许其他研究人员和公 ...
英特尔深入零售门店打造“智慧大脑”,重点发力海外
Feng Huang Wang· 2025-05-09 02:45
Core Insights - Intel is leveraging AI and computing power to transform retail experiences, enabling features like facial recognition for personalized recommendations and quick checkout processes [1] - At the 25th China Retail Industry Expo, Intel showcased smart retail solutions in collaboration with partners, emphasizing the role of AI technologies in retail transformation [1] Group 1: Smart Retail Solutions - Intel's smart retail architecture combines edge computing and endpoint devices, utilizing its Core Ultra processors and Xe graphics for various retail functionalities [1] - The endpoint devices powered by Intel's Core Ultra processors support functions such as smart shopping assistance, stock alerts, product recommendations, and advertising, aimed at reducing operational costs [1] - Edge devices, supported by Core Ultra processors and multiple Xe graphics cards, facilitate store management tasks like compliance checks and customer flow analysis [1] Group 2: AI POS Solutions - Intel's AI POS solutions are built on different levels of computing platforms, optimized with Intel's oneAPI and OpenVINO toolkits for flexible algorithm models [2] - The company aims to break the price war cycle with its initiatives and plans to launch another Edge AI project this year to promote retail devices in overseas markets [2]
苹果谷歌“闹分手”?iPhone搜索或转投AI,高管揭秘
3 6 Ke· 2025-05-08 23:59
此案核心争议是两家公司价值约200亿美元(约合人民币1447亿元)/年的协议,该协议让谷歌搜索成为苹果浏览器默认搜索引擎。此案可能迫 使科技巨头解除合作,颠覆iPhone等设备长期以来的运作方式。 01.Safari搜索量首次下滑,AI抢夺传统搜索引擎"蛋糕" 自2007年初代iPhone发布以来,苹果用户始终通过谷歌进行网页搜索,而如今消费者将进入由多家公司AI主导的新时代。 苹果和谷歌要"分手"? 智东西5月8日消息,据知名苹果爆料人、彭博社记者马克·古尔曼(Mark Gurman)最新报道,苹果公司正在"积极考虑"彻底改造其设备上的 Safari网络浏览器,将重点转向AI驱动的搜索引擎。 苹果与谷歌持续二十年战略合作关系似乎出现"裂痕",重大行业变革被按下"加速键"。 本周三,苹果互联网软件和服务部门高级副总裁埃迪·库(Eddy Cue)在美国司法部起诉谷歌母公司Alphabet的案件中作证时披露了这一信息。 埃迪·库提到,Safari搜索量上月首次下滑。他认为这是因为AI工具吸引了部分用户的视线,包括OpenAI、Perplexity AI和Anthropic在内的AI搜 索提供商终将取代Alphab ...
中金 | 大模型系列(2):LLM在个股投研的应用初探
中金点睛· 2025-05-08 23:33
点击小程序查看报告原文 Abstract 摘要 LLM在个股投研的应用:因子挖掘、个股复盘 随着资本市场信息生产机制的加速迭代,上市公司每日披露的公告、舆情、产业链动态等非结构化数据呈现指数级增长。传统人工复盘模式受限于信息处 理效率与认知边界,已难以满足投资者对海量增量信息的实时追踪与价值提炼需求;成熟的基本面选股逻辑如何高效地转化为定量因子也是困扰投资者的 重要问题。本报告提出,通过大语言模型(LLM)技术构建智能化个股复盘框架和基本面因子生成框架,期望通过技术赋能的方式助力投资者实现投研 工作流的提质增效。 主观逻辑因子化和个股复盘或为LLM在个股投研中较好的应用场景。 利用LLM构造基本面选股因子的挖掘框架,可以发挥LLM在推理能力和创造性方面 的优势,提高主观选股逻辑到量化因子的转化效率。利用LLM构建智能化个股复盘体系,可以发挥LLM在处理非结构化数据及观点总结能力方面的优 势,可有效抽取每日关键信息,高效复盘每日最新信息,输出带有一定置信度评估的初步结论,为投资者提供决策参考锚点。 基于LLM的基本面因子挖掘框架:发挥LLM的创造力 关键点:Prompt引导因子创造方向。 在基于LLM的基本面因 ...