DeepSeek

Search documents
全球人工智能创新创业大赛即将启幕!杭州拱墅全力打造AI创新高地
量子位· 2025-06-10 05:16
允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月,由杭州市拱墅区人民政府、中国人工智能学会、中欧人才交流与创新合作中心 联合主办的 "智汇运河·智算未来"全球人工智能创新创业大赛即将重磅启幕 。 大赛聚焦人工智能前沿领域,面向全球征集优质项目,旨在通过"以赛引才、以赛促创"模 式,推动海内外顶尖技术与产业资源汇聚杭州拱墅,助力打造具有国际影响力的人工智能创 新应用示范区,为国家高水平科技自立自强提供"拱墅样本"。 全球联动,共绘AI产业新图景 当前,人工智能技术正重塑全球产业格局。 作为中国数字经济高地,杭州近年来在人工智能领域持续领跑。拱墅区作为DeepSeek的发 源地,依托大运河数智未来城、智慧网谷小镇等产业平台,已集聚超500家人工智能相关企 业,已建立了"科学家+企业家+投资家"的协同创新、成果转化和产业孵化机制,加速推动人 工智能与实体经济深度融合。 在此背景下,为进一步激发创新活力,以"智汇运河・智算未来"为主题的全球人工智能创新 创业大赛应运而生。 大赛立足拱墅、辐射全球, 聚焦智能制造与智慧城市、生命健康、智慧物流、全球化协同创 新四大"AI+"主题赛道 ,打造立体化竞技 ...
应用很散 一揽子?
小熊跑的快· 2025-06-10 01:55
全球ai由训练走向推理了。软件应用开始冒头。 2024年发布的模型总数同比均有所下降。美国为2024年发布知名模型最多的地区,数量达40个,较2023年的61个同比下降34.43%。分机构看,2024年贡 献知名模型最多的机构分别是OpenAI(7个)、谷歌(7个)和阿里巴巴(4个)。受MoE等新技术推动,2024年模型的参数数量保持快速上升趋势,规模 扩大仍是模型性能提升的重要方式。 随着强化学习时间和推理思考时间的增长,模型性能也将得到显著提升。据前OpenAI应用研究负责人Lilian Weng数据,s1实验中,通过强制延长思维链 推理路径长度,以Token衡量的平均思维时间与下游评估准确率之间展现出明显的正相关关系。据上海交通大学研究表明,通过延长AI的推理时间,仅需 500个样本训练,就能让模型在医疗诊断准确率上提升6%-11%,达到专业医生的诊断水准 。 趋势看,tokens调用激增。 2023-2024年,开发人员采用AI工具率由44%提升至63%。Google每月处理Tokens增长50倍,Microsoft Azure AI Foundry处理Tokens增长5倍。AI模型训练成 本高+的推 ...
报道:DeepSeek核心高管离职创业,瞄准Agent赛道
news flash· 2025-06-09 13:02
Core Insights - A core executive from DeepSeek has quietly left to start a new venture, planning to launch an Agent product around Christmas 2025 [1] - The departing executive is reported to be the former CTO of DeepSeek, although there is no official CTO position within the company [1] - The new startup has secured funding from a prominent venture capital firm [1]
DeepSeek核心高管离职创业,瞄准Agent赛道
虎嗅APP· 2025-06-09 12:54
以下文章来源于AGI接口 ,作者宋思杭 AGI接口 . AI卷起的财富风暴。 出品|虎嗅科技组 作者|宋思杭 值得注意的是,这并非AI行业首次出现核心高管离职创业的案例。从OpenAI的多位联合创始人出 走,到国内大厂AI团队的人才分流,高端AI人才的流动已成为行业常态。 一个近两年在OpenAI发生的典型案例是,曾一直与奥特曼不和的首席科学家伊利亚在2024年5月 离开公司后一个月,便联合前Y Combinator合伙人格罗斯(Daniel Gross)和前OpenAI工程师列 维(Daniel Levy)共同创立Safe Superintelligence(简称"SSI"),迄今为止,这家公司总融资额 已达到30亿美元,第二轮融资后估值直接飙升至320亿美元。SSI也因此成为史诗级独角兽。 然 而 , 尽 管 关 于 这 位 DeepSeek 核 心 高 管 的 创 业 项 目 并 无 相 关 融 资 披 露 , 但 这 并 不 妨 碍 , 从 DeepSeek"出走"的人也有可能创造下一个独角兽神话。 而这种现象背后恰反映了AI行业的几个特点:一是技术迭代速度快,新方向不断涌现,为创业提 供了丰富的机会 ...
科技巨头继续砸钱“撑腰” AI基础设施股一扫阴霾迎反弹
智通财经网· 2025-06-09 11:33
智通财经APP获悉,AI基础设施概念股在年初大幅下跌后,如今正在大幅上涨。这是因为大型科技公司 的投资重新提振了投资者对该行业的信心。由高盛追踪的两个股票组合表现良好:其中一组追踪的是 AI数据中心和电气设备类股票,另一组则追踪为数据中心提供电力的公司的股票。这两组股票分别较 4 月的低点上涨了 52%和 39%。其中表现突出的公司包括Vertiv Holdings(VRT.US)——其自 4 月 4 日以来 已上涨 94%,以及Constellation Energy(CEG.US)——同期上涨 75%。 全球最大的几家科技公司——包括亚马逊(AMZN.US)、Alphabet(GOOGL.US)、微软(MSFT.US)和 Meta(META.US)——仍在大力投入人工智能领域,这消除了人们对于资金是否会继续流向那些主要AI 基础设施公司的疑虑。据彭博分析师Robert Schiffman称,用于支持AI需求的资本支出预测自年初以来 增长了 16%。 Roundhill Financial 首席执行官Dave Mazza表示:"财报季让投资者们明白,生成式AI并非依靠空洞的口 号来运行,而是依靠实实在在的物 ...
WWDC前夕,苹果论文“炮轰”AI推理模型“假思考”,测试方法遭质疑
Mei Ri Jing Ji Xin Wen· 2025-06-09 11:06
Core Viewpoint - The paper published by Apple's Machine Learning Research Center argues that existing reasoning models create an illusion of "thinking" without a stable and understandable thought process, suggesting that their reasoning capabilities are fundamentally flawed [1][4][6] Group 1: Paper Findings - The paper critiques the reasoning models developed by companies like OpenAI, Anthropic, Google, and DeepMind, claiming that these models do not possess a reliable reasoning process [4][6] - Apple's team designed four types of puzzle environments to test reasoning models, including Tower of Hanoi, checkers exchange, river crossing, and block world, to evaluate their reasoning capabilities under controlled difficulty [4][6] - Experimental results indicate that non-reasoning models outperform reasoning models in low-complexity tasks, while reasoning models show advantages in moderately complex tasks [6][7] Group 2: Limitations of Reasoning Models - Both reasoning and non-reasoning models experience a significant drop in performance when task complexity exceeds a certain threshold, with accuracy dropping to zero [7][9] - As problem complexity increases, reasoning models initially invest more thinking tokens, but their reasoning ability collapses when faced with overly difficult problems, leading to reduced effort in thinking [9][10] - In simpler problems, models often find correct solutions early but engage in unnecessary thinking later, while in high-complexity problems, reasoning becomes chaotic and incoherent [10][11] Group 3: Controversy and Reactions - The paper has sparked controversy, with some researchers arguing that the failure of models in tests is due to output token limitations rather than a lack of reasoning ability [12] - Critics suggest that Apple's focus on the limitations of current methods may reflect frustration over its own AI advancements, especially with the upcoming WWDC event expected to yield limited AI updates [13][14] - Internal challenges at Apple, including leadership styles and privacy policies, have reportedly hindered progress in AI development, contributing to the perception of stagnation in their AI initiatives [14][15]
AGI最后拼图,一文看懂什么是强化学习?其护城河是什么?
Hua Er Jie Jian Wen· 2025-06-09 10:47
当DeepSeek-R1以更低成本实现类似性能突破时,Claude能够连贯工作数小时完成复杂任务时,意味着AI发展已经迈入推理时代,强化学习技术的 重要性不言而喻,将重塑AI产业的技术栈乃至商业模式。 6月8日,AI研究公司SemiAnalysis发布长篇报告《强化学习:环境、奖励破解、智能体、扩展数据》,深度剖析了强化学习的工作原理以及影响 因素,并预测了后续AI发展趋势。 报告表示,强化学习(RL)或成为AGI前最后关键范式,其理密集型特性带来了算力挑战。此外,高质量数据是强化学习护城河,AI设计AI的循 环加速技术迭代。 1. 强化学习(RL)或成为AGI前最后关键范式:强化学习是推动大模型推理能力跃升的核心技术,尤其在思维链(CoT)生成和长 程任务连贯性上表现突出,被视作实现AGI前的终极技术路径。 2. 可验证奖励场景率先商业化:编码、数学等奖励函数明确的任务(如SWE-Bench性能提升30%+)已实现落地,OpenAI的o1、 DeepSeek-R1等模型验证其价值。医疗、写作等非验证领域通过"LLM评判者+人工评分标准"构建奖励函数(如HealthBench医疗 评估),OpenAI、阿里Q ...
赚钱模式,彻底变了
Hu Xiu· 2025-06-09 09:16
本文来自微信公众号:正和岛 (ID:zhenghedao),口 述:卫哲(嘉御资本董事长、《效率为王》作 者),采编:微澜,原文标题:《一战3300亿!卫哲:赚钱模式,彻底变了》,头图来自:虎嗅(小雨 摄) 而在如今人人喊着生意难做的情况下,他投资的泡泡玛特在两年时间,市值暴涨超10倍,突破3300亿; 他投资的沪上阿姨,在2024年年底门店数量达到近万家,并在今年成功登陆港交所;他投资的安克创 新,研发的产品连特朗普都在用。 从消费到出海,从出海再到科技,卫哲和嘉御资本仍在不断地扩张版图,投出一个又一个传奇公司。 人们惊叹于他的投资眼光,也好奇为什么是卫哲和嘉御资本投出了这些企业? 近期,卫哲先生出版新书《效率为王》,我们也基于这一内容专访了卫哲先生,就存量时代,效率为王 这一话题延展开一场讨论,希望对你有所启发。 一、谈新书:没有效率的增长,是加速自杀 问:你上一次出书是在2004年,叫做《金领》,时隔21年,再次出新书《效率为王》,有什么不一样的 感受? 卫哲:2004年那本《金领》讲的是职业发展,更注重的是个人的职业生涯,总结了从毕业以后当总裁秘 书到500强总裁,正好花了10年时间,是对自己个人发展 ...
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 08:03
端侧大模型,正在发生质变。 端侧语言模型,终于迎来了脱胎换骨式的创新。 上周五,2025 智源大会上,国内知名 AI 创业公司面壁智能正式发布了旗下最新一代「小钢炮」模型 MiniCPM 4.0,一下子把 AI 的发展推到了「前进 四」。 机器之心报道 编辑:泽南 模型、预训练数据和端侧推理框架均已开源。 MiniCPM 4.0 系列在卫冕全球最强端侧模型的同时,也让我们看到了继 DeepSeek 之后大模型领域又一次源自底层架构的技术突破。 速度提升百倍 在发布会上,面壁智能 CEO 宣布 MiniCPM 4.0 实现了行业首个系统级上下文稀疏语言模型创新,实现了 5% 的极高稀疏度,能够在端侧跑起长文本推 理,开启了端侧长文本时代。 本次发布的 MiniCPM 4.0 分为 8B 和 0.5B 两个参数版本,均刷新了端侧模型能力的上限。 据介绍,通过架构、算法、数据及系统层面的多维度创新,新一代上下文稀疏高效架构模型 MiniCPM 4.0 8B 相较于 Qwen-3-8B、Llama-3-8B、 GLM-4-9B 等同体量模型实现了长文本推理速度稳定 5 倍, 极限场景下最高 220 倍加速 ,实现了同 ...
阿里3800亿押注算力,智谱AI大打价格战,AI五强争霸背后的生态博弈与估值困局
Xi Niu Cai Jing· 2025-06-09 03:15
从"百模混战"到"五强争霸"AI格局重塑 2024年堪称中国大模型产业的分水岭,尤其是在技术和资本门槛双双提升的背景下,市场已从初期的野蛮生长进入深度洗牌阶段。曾经涌现的百余家参赛者 中,仅字节跳动、阿里巴巴、阶跃星辰、智谱AI与DeepSeek五家企业脱颖而出。 其中,DeepSeek的横空出世极具象征意义,其最新模型以GPT-4的1%成本实现90%性能,将推理效率提升62倍。这种突破并非偶然,背后是长达18个月的工 程优化积累,涉及MoE架构创新、多token预测算法等23项核心技术专利。数据显示,其模型推理能耗较行业平均降低89%,彻底打破"算力军备竞赛"的固有 认知。 除"技术尖子生"DeepSeek之外,头部阵营的其他玩家也在大模型的投入规模上对中小企业形成碾压优势。比如,字节跳动在2024年就AI相关资本开支达800 亿元,相当于百度、阿里、腾讯三家之和的80%,阿里宣布未来三年投入3800亿元建设AI基础设施,超过其过去十年总和。这种千亿级量级的投入正在改变 游戏规则——中小玩家已无力参与基础模型竞争。 与此同时,生态闭环也在加速构建。其中,头部企业正通过垂直整合形成生态壁垒。字节跳动构建起从豆 ...