Artificial Intelligence
Search documents
非Transformer架构的新突破,液态神经网络的推理小模型只用900M内存
机器之心· 2026-01-21 09:35
谷歌 2017 年提出的 Transformer 架构事实上已经基本垄断了大模型。 不采用 Transformer 架构的大模型已经是少之又少,而采用非 Transformer 架构,还能与主流第一梯队大模型扳手腕的,更是凤毛麟角。 不知道大家是否还有印象,当年有一个尝试 给大模型装上「虫脑」 的初创公司,他们的研究人员受到秀丽隐杆线虫的神经结构启发,研发出一种新型的灵活神经 网络,也被称为液态神经网络。 这是一个连续时间模型,由多个简单的动态系统组成,这些系统通过非线性门相互调节。这种网络的特点是时间常数可变,输出通过求解微分方程得到。它在稳 定性、表达能力和时间序列预测方面都优于传统模型。 除此以外,液态神经网络的另一个特点是规模小得多,在 2024 年该架构就实现了 1.3B 大小的模型部署,但彼时尚未能与主流大模型一拼高下。 提出液态神经网络架构,并且做出 Liquid Foundation Models(LFM)大模型的,是由 MIT 计算机科学和人工智能实验室 CSAIL 孵化,成立于 2023 年 3 月的初创 公司 Liquid AI。 就在刚刚,Liquid AI 又一次在 LFM 模型上放 ...
刚投完OpenAI和xAI,红杉资本又砸重金押注Anthropic
机器人圈· 2026-01-21 09:34
风投界的风向,变得比硅谷的天气还快。就在大家以为OpenAI和它的"兄弟们"已经圈定了AI牌桌时,老牌 巨头红杉资本,悄悄把筹码推向了另一家AI创企——Anthropic。 据传,红杉资本正准备加入一场总规模可能高达250亿美元的"史诗级"融资,目标是把打造了Claude聊天 机器人的Anthropic,推到3500亿美元的惊人估值。而就在四个月前,Anthropic才值1700亿。 融资"巨无霸"套餐:谁在买单? 这次融资,堪称"全明星"阵容。领投的是新加坡主权财富基金GIC和美国对冲基金Coatue,两家各自豪掷 15亿美元。 被视为科技圈"卖铲人"微软和"买水人"英伟达,则联手承诺提供高达150亿美元的支票。红杉的加入,则 是为这场盛宴添上了最具象征意义的一道菜。 算下来,光这几家资本巨头就撑起了近200亿美元。剩下的几十亿缺口,将由其他嗅觉敏锐的风投和机构 投资者填补。 有趣的是,红杉的这一举动,打破了自己乃至整个风投圈的潜规则。要知道,它在2025年刚投了 OpenAI,也押了马斯克的xAI。按传统打法,风投们会避免在同一个赛道里"脚踏多条船",以免自己左右 互搏。 简单说,红杉不再赌"唯一赢家", ...
山海实业与CSI联合领投,人工智能企业宇泛智能完成Pre-IPO+轮融资
机器人圈· 2026-01-21 09:34
在AI1.0阶段,宇泛智能以人脸识别技术为起点,逐步拓展至多类视觉感知与行为识别算法,并实现从AI算 法到智能硬件的全栈布局,构建了AI与电子工程深度融合的技术体系。AI2.0阶段,宇泛智能持续推进以多 模态大模型为核心的系统性布局,推动智能能力从"视觉感知"向"感知—推理—决策—执行"的闭环能力演 进。目前,公司已在端侧多模态大模型、空间认知模型、具身智能硬件与系统级控制架构等方向展开深度 研发,为新一代通用机器人及复杂场景智能体的规模化应用奠定基础。 文章来源:猎云网 近日,人工智能企业宇泛智能宣布完成Pre-IPO+轮融资,折合人民币5.13亿元。本轮融资由温州苍南 县"山海实业集团"与马来西亚"Crewstone International (CSI)"联合投资,老股东"博将资本"继参与宇泛 智能B2轮、C2轮投资之后,此次Pre-IPO+轮继续加码。 本轮融资资金将重点用于机器人本体、多模态大模型、通用机器人"大小脑"、世界模型等核心能力建设, 以及东南亚等海外市场的业务拓展与本地化布局,进一步夯实公司在AI2.0阶段的技术积累与全球化发展基 础。 商务合作 商务活动|宣传推广|转载开白等 联系电话 ...
MiniMax Agent 开年更新,好的 AI 产品,需要让工具来适应人了
Founder Park· 2026-01-21 09:30
这是一个跑在本地的 AI Agent,一个面向大众版的 Claude Code,能帮你点鼠标、帮你整理文件、帮你完成各种操作。 紧接着,开源社区迅速跟进,各种「开源 Cowork」或「Local First」产品接踵而至,或许是感受到了外部的竞争压力,Anthropic 随后将 100 美元 Max 套 餐独享的 Cowork 功能下调至 20 美元的 Pro 档。 MiniMax 也在这个节点升级了旗下的 MiniMax Agent,推出了桌面端,提供本地文件处理功能、Browser Use 功能等等,用户只需要一句话,即可快速完成 基于本地的任务。同时网页端新增专家(Expert)功能,可以将常用配置保存为可复用模板——指令、模型偏好、Agent 行为,一次配置,反复使用。 「桌面 Agent」突然火了起来,行业内已经似乎突然形成了某种清晰的共识。 当 AI 不再只存在于网页对话框和云端环境里,而是进入你的真实工作环境,这件事究竟改变了什么? 答案很简单:上下文扩容。 以前跟 AI 聊天,它的视野只有对话框里的几行字,以及你上传的附件。但现在不同了,你的硬盘、你的浏览器、你的文件目录、你的屏幕画面,都成了 ...
Hugging Face回看“DeepSeek时刻”:过去一年,中国AI如何改变全球开源格局?
硬AI· 2026-01-21 09:19
硬·AI 作者 | 龙 玥 编辑 | 硬 AI 1月20日,全球最大的AI开源社区Hugging Face发布深度文章——《"DeepSeek时刻"一周年》,详述了 中国AI力量在过去一年如何重塑全球开源生态。 全球最大AI开源社区Hugging Face发文称,DeepSeek R-1打破技术、应用与心理三重壁垒,引领中国AI全面开源。百 度Hugging Face发布量由零破百,腾讯字节增长约9倍,阿里深耕生态,助推中国模型下载量反超美国。全球已形成底 层依赖,甚至美国模型也基于DeepSeek微调,中国AI正重塑全球格局。 文章指出,2025年1月DeepSeek R-1的发布成为业界的重要分水岭时刻,它降低了技术与应用门槛,不 仅是中国AI发展的转折点,更在全球范围内引发了开源模式的深刻变革,促使中国模型在下载量和影响力 上全面崛起。 过去一年,百度、阿里巴巴、腾讯等巨头及Moonshot等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国。尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开 发的开源模型作为基础,中国AI已深度嵌入全球供应链。 首先是技术 ...
Down 40%, Is CoreWeave a Buy on the Dip?
The Motley Fool· 2026-01-21 09:10
CoreWeave launched its IPO last March.CoreWeave (CRWV 5.94%) has been one of the most-watched artificial intelligence (AI) stocks around over the past year. The company launched an initial public offering last March, has reported explosive revenue growth -- and has the backing of AI market star, Nvidia.All of this has helped CoreWeave attract the eyes of investors, and the stock jumped more than 300% in the months following its IPO. But CoreWeave has encountered some rough patches along the way, and that's ...
DeepSeek新模型“MODEL1”曝光
Di Yi Cai Jing Zi Xun· 2026-01-21 09:05
Core Insights - The article discusses the emergence of a new model named "MODEL1" from DeepSeek, coinciding with the one-year anniversary of the DeepSeek-R1 release, indicating potential advancements in AI model architecture [2][6]. Group 1: Model Development - "MODEL1" has been referenced in the updated FlashMLA code on GitHub, suggesting it may represent a new model distinct from the existing "V32" architecture [2][3]. - There are differing opinions in the industry regarding whether "MODEL1" is a version 4 model or an advanced inference model, with some developers speculating it could be the ultimate version of the V3 series [2][5]. - Key technical differences between "MODEL1" and "V32" include variations in key-value (KV) cache layout, sparsity handling, and support for FP8 data format decoding, indicating targeted design for memory optimization and computational efficiency [5]. Group 2: Anticipated Release and Features - The structure of the model files suggests that "MODEL1" is nearing completion or inference deployment, awaiting final weight freezing and testing validation, which implies a forthcoming launch [5]. - There are expectations for DeepSeek to release its next flagship model, DeepSeek V4, in February, with preliminary tests indicating it may surpass other top models in programming capabilities [6]. - Recent technical papers from DeepSeek introduce new training methods and an AI memory module, hinting that these innovations may be integrated into the upcoming model [6]. Group 3: Industry Impact - The DeepSeek-R1 model has been recognized as the most praised model on Hugging Face, significantly lowering barriers in inference technology and production deployment, thus influencing the open-source strategy of major Chinese companies [9]. - Over the past year, Chinese AI models have seen increased downloads on Hugging Face, surpassing those from the U.S., indicating a shift in reliance on Chinese-developed open-source models within the global supply chain [9].
DeepSeek新模型“MODEL1”曝光
第一财经· 2026-01-21 08:56
2026.01. 21 本文字数:1454,阅读时长大约2分钟 作者 | 第一财经 刘晓洁 题图 | AI生成 在 DeepSeek-R1 发 布 一 周 年 之 际 , 新 模 型 "MODEL1" 的 项 目 名 在 开 源 社 区 悄 然 出 现 。 近 日 , DeepSeek官方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提到了此前未公开 的"MODEL1"大模型标识符。 在项目中,"MODEL1"标识符与已知的现有模型 "V32"(即 DeepSeek-V3.2)被并列提及。行业认 为,根据代码上下文,"MODEL1"很可能代表一个不同于现有架构的新模型。但是具体是V4模型还 是推理模型R2行业有不同的看法,也有开发者认为可能是V3系列的终极版。 FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是DeepSeek 模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化地利用GPU 硬件。 根据开发者的分析,"MODEL1"与 "V32"在关键技术上存在区别,主要体现在键值(KV)缓存的布 局、稀疏性处理方式以 ...
Nvidia Invests in AI Start-up Baseten. It Shows a Shift in the Market.
Barrons· 2026-01-21 08:29
Core Insights - Nvidia has made a significant investment of $150 million in Baseten, a company that specializes in assisting businesses with the deployment and operation of large AI models [1] Company Summary - Nvidia's investment in Baseten highlights its commitment to expanding its influence in the AI sector, particularly in facilitating the deployment of large-scale AI solutions [1] - Baseten's role in the AI ecosystem is crucial as it provides tools and services that enable companies to effectively manage and utilize large AI models [1]
从“杭州六小龙”到“上海五朵金花”——AI企业批量上市潮背后的培育逻辑之变
Xin Hua Cai Jing· 2026-01-21 08:09
新华财经上海1月21日电 2026年的开局,对上海科创界而言是一场AI产业的集中爆发——在横跨2025年末至2026年初的短短一个月内,壁仞科技、天数智 芯、稀宇科技(MiniMax)、沐曦股份、英矽智能五家硬核AI企业接连登陆资本市场;此外,还有同属算力阵营的燧原科技也已完成IPO辅导,冲刺在即。 在上海"五朵金花"热闹绽放之前,上一次凭借AI技术深度融合火爆出圈、引发全国广泛关注的前沿科技企业集群,则是杭州"六小龙"。但与"六小龙"的"点 状爆发"不同,上海此番企业上市潮覆盖了从GPU芯片、大模型底座到生物医药等垂直应用的完整链条,展现出罕见的产业纵深与系统性协同。 更值得注意的是,五家IPO企业中的三家——壁仞科技、天数智芯、稀宇科技,均出自临港集团旗下产业园区。据悉,临港集团围绕上海AI产业战略,已集 聚超过1600家人工智能企业(含软件与信息技术服务类),产业规模突破1000亿元。于是,当外界惊叹于"上海规模"与"上海质量"时,一个更值得思考的问 题产生:这座超大城市,究竟是如何批量"种"出AI上市企业产业链的? 不是"突然冒尖",而是"十年磨剑":长期主义是底层密码 临港浦江国际科技城副总经理张潇 ...