Workflow
数据流架构
icon
Search documents
理想CTO谢炎在云栖大会分享理想自动驾驶芯片设计思路
理想TOP2· 2025-09-27 08:58
视频版: 压缩版: 理想VLA做L两个原因,技术原因是图语言的长推理能力,需要语言的token输入输出是次要的。非技术原因是更容易价值观对齐。 认为最后5%10%corner case很难靠数据或世界模型自己撞出来,而需要具备类似人的推理能力。 和业界一样,在思考GPGPU是不是AI时代的终极答案。从CPU到GPU到GPGPU,本质上是冯诺依曼架构,冯诺依曼架构核心本质是程序主要关注的是 计算不是数据,数据是第二等公民,计算是一等公民。 在AI时代,计算的算子没那么多,提出的问题是,能不能让程序更多关注数据,而不是关注计算。 理想自研的车端计算架构主要是NPU,不是SOC。SOC无非是前处理后处理的CPU Cluster,加一些IO在外面与内存访存控制器。NPU里面是一个重合架 构,加一个CCB(Central Control Computing Block)用来做一些前处理后处理,不适合非张量的计算,每个class是同构的,用Mesh Bus连在一起,也提供 Ring Bus(环形总线)做广播。原话"这个是我们完全是我们独创的一个AI推理架构,目前国内没有这么做的。" 比较挑战的是编译器(涉及很多编程模型和 ...
聚焦“新算力”,清微智能新架构助力AI科技“换道超车”
Jing Ji Wang· 2025-09-18 09:15
清微智能首款"新算力"芯片"TX81"推出仅短短半年,即实现了在全国多地落地千卡智算中心,累计订 单超过20000枚。但一条全新的路,要面临的困难和风险可以想象,没有成熟方案可以借鉴,几乎每一 行代码都要编写。 近年来,各级投资机构也越加清晰地看到了新算力的价值,大基金投资、国开基金纷纷入场投资。从市 场风向来看,ChatGPT宣布转向数据流架构,DeepSeek3.1宣布支持包括清微智能在内的下一代国产芯 片,都是算力产业实现自主可控的关键信号。 作为全球"新算力"浪潮的参与者,清微智能的先发优势和战略定力让它开了一个好头,实现新技术规模 化落地离不开充足的研发时间、技术迭代、资本注入及政策扶持。AI下半场,数据流架构推动的"国产 新算力"也需要行业和用户给予机遇和耐心。 目光回到我国,清微智能是一家源于清华大学、具有近20年技术积累的科技企业,在全球领先完成数据 流可重构芯片技术的工程化和量产落地。清微创始人、董事长兼CEO王博认为,芯片技术发展有一 个"类摩尔定律",即芯片架构20年一迭代。他表示,上世纪60-70年代是以CPU为主流,进入80年代, 随着技术发展有了FPGA去解决通信的问题,进入新世纪 ...
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 04:56
Core Viewpoint - The article discusses the advancements in Li Auto's self-developed chip architecture, particularly focusing on the VLA architecture and its implications for autonomous driving capabilities [1][2]. Group 1: Chip Development and Architecture - Li Auto's self-developed chip is designed with a data flow architecture that emphasizes hardware-software co-design, making it suitable for running large neural networks efficiently [5][9]. - The chip is expected to achieve 2x performance compared to leading chips when running large language models like GPT and 3x for vision models like CNN [5][8]. - The development timeline from project initiation to vehicle deployment is approximately three years, indicating a rapid pace compared to similar projects [5][8]. Group 2: Challenges and Innovations - Achieving real-time inference on the vehicle's chip is a significant challenge, with efforts focused on optimizing performance through various engineering techniques [3][4]. - Li Auto is implementing innovative parallel decoding methods to enhance the efficiency of action token inference, which is crucial for autonomous driving [4]. - The integration of CPU, GPU, and NPU in the Thor chip aims to improve versatility and performance in processing large amounts of data, which is essential for autonomous driving applications [3][6]. Group 3: Future Outlook - The company expresses strong confidence in its innovative architecture and full-stack development capabilities, which are expected to become key differentiators in the future [7][10]. - The relationship between increased computing power and improved performance in advanced driver-assistance systems (ADAS) is highlighted, suggesting a predictable enhancement in capabilities as technology evolves [6][9].
重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?
Xin Lang Cai Jing· 2025-06-09 13:27
作者 | 玉盘 AI 团队 审核 | 华卫 "大模型每生成 1 美元价值,需支付 3 美元算力成本",算力成本挑战已无争议。从软件层面的各类优化 方案层出不穷,真正从硬件源头着手的方案却屈指可数,市面上能看到的包括 Groq 在内的新计算硬件 也多数在大模型爆发前定型,难以充分匹配大模型本身的需求。 DeepSeek 从用户角度的不少构想与玉盘 SRDA 在做的事不谋而合,包括 IO 融合、3D 堆叠 DRAM 等, 而玉盘进一步提出了更完整的架构设计,或正式拉开下一代大模型专用计算架构的序幕。 今天,国内团队玉盘 AI 发布《SRDA AI 大模型专用计算架构》白皮书,提出了一种全新的计算架构: 系统级精简可重构数据流架构 SRDA (System-level Simplified Reconfigurable Dataflow Architecture), 从硬件源头解决当前 AI 算力的核心瓶颈。 与此同时,DeepSeek 于半个月前发表论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI ...