Workflow
大模型开源
icon
Search documents
刚刚,华为发布!
中国基金报· 2025-06-30 04:05
【导读】华为首次开源盘古大模型,包含 70 亿和 720 亿参数模型 中国基金报记者 张燕北 6 月 30 日,华为宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专 家模型,以及基于昇腾的模型推理技术。 华为表示,此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发 展,加速推进人工智能在千行百业的应用与价值创造。 据华为官网信息,此次是华为首次将盘古大模型的核心能力开源,本次开源主要包括:盘古 Pro MoE 72B 模型权重、基础推理代码,已正式上线开源平台;基于昇腾的超大规模 MoE 模型推理代码,已正式上线开源平台;盘古 7B 相关模型权重与推理代码将于近期上线开源 平台。 华为表示, " 我们诚邀全球开发者、企业伙伴及研究人员下载使用,反馈使用意见,共同完 善。 " (来源:开源开发者平台 GitGo ) 据了解,盘古是华为推出的一系列超大规模人工智能预训练模型,涵盖自然语言处理、计算 机视觉、科学计算等多个领域。其名称寓意 " 开天辟地 " ,象征着华为在人工智能基础研究 和行业应用上的突破性探索。盘古模型自发布以来,已在多个行业中实现落地,包括 ...
华为缘何开源盘古大模型?
Tai Mei Ti A P P· 2025-06-30 03:23
Core Insights - Huawei officially announced the open-sourcing of the Pangu 70 billion parameter dense model and the Pangu Pro MoE 720 billion parameter mixture of experts model, marking a significant step in its Ascend ecosystem strategy aimed at advancing AI technology and its applications across various industries [2][3]. Group 1: Open-Sourcing Details - The Pangu Pro MoE 72B model weights and basic inference code are now available on the open-source platform, with the Pangu 7B model weights and inference code expected to be released soon [2]. - This is Huawei's first announcement of open-sourcing the Pangu large models, emphasizing the concept of "open for ecology" to foster technological growth [2][3]. Group 2: Strategic Implications - Huawei's decision to open-source only two widely used models reflects a cautious approach, focusing on models that are moderately parameterized and have balanced performance, suitable for applications like intelligent customer service and knowledge bases [2][3]. - The Pangu Pro MoE model, with its sparse activation and dynamic routing features, is better suited for more complex tasks, indicating a strategic choice in model selection [2]. Group 3: Ecosystem Development - The open-sourcing of the Ascend-based model inference technology is crucial for enhancing the adaptability of domestic AI infrastructure, which is essential for developers to effectively utilize Pangu models [3][4]. - Huawei aims to create a closed-loop system from models to hardware to application scenarios, enhancing its full-stack AI capabilities and ensuring a competitive edge in the market [4]. Group 4: Market Positioning - The launch of the new generation of Ascend AI cloud services based on the CloudMatrix 384 super-node architecture was announced, further solidifying Huawei's position in the AI computing market [3][4]. - The integration of Pangu models with Ascend chips is designed to embed Huawei's hardware deeply into the AI industry chain, similar to how NVIDIA's CUDA ecosystem supports large models [4].
百度正式开源文心大模型4.5系列模型
第一财经· 2025-06-30 03:12
6月30日,百度正式开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混合专家(MoE)模 型,与0.3B参数的稠密型模型等10款模型,并实现预训练权重和推理代码的完全开源。目前,文心 大模型4.5开源系列可在飞桨星河社区、HuggingFace等平台下载部署使用,同时开源模型API服务 也可在百度智能云千帆大模型平台使用。 ...
腾讯,大动作!
中国基金报· 2025-06-27 15:00
Core Viewpoint - Tencent's Hunyuan-A13B model is the first open-source MoE model at the 13B parameter level, offering significant performance improvements and cost advantages for developers in the AI industry [4][6]. Group 1: Model Features and Performance - Hunyuan-A13B has a total of 80 billion parameters, with 13 billion active parameters, outperforming other leading open-source models in terms of inference speed and cost-effectiveness [4][5]. - The model supports flexible thinking modes, allowing for either quick, efficient outputs or deeper, more comprehensive reasoning processes [5]. - It is user-friendly for individual developers, requiring only a single mid-range GPU for deployment, and integrates seamlessly with mainstream open-source inference frameworks [5][10]. Group 2: Industry Trends and Open Source Movement - The open-source trend in AI is accelerating, with major tech companies like OpenAI, Google, and Alibaba releasing over 10 open-source models since March 2023 [8][9]. - The performance of open-source models continues to improve, with platforms like Hugging Face frequently updating their model rankings [8]. - Companies are increasingly adopting open-source AI technologies, with over 50% of enterprises reportedly utilizing these solutions for data, models, and tools [9][10]. Group 3: Future Developments - Tencent plans to release more models of varying sizes and features, contributing to the growth of the open-source ecosystem [6][10]. - Future releases will include a range of mixed reasoning models from 0.5B to 32B parameters, as well as multi-modal foundational models for images, videos, and 3D [10].
DeepSeek和李飞飞之后,英伟达也看上阿里千问?
Xin Lang Ke Ji· 2025-05-13 07:01
要说全球开源大模型生态圈里,谁最让人"魂牵梦绕"? 阿里,当仁不让。 就在上周,继DeepSeek和"AI教母"李飞飞之后,英伟达也相中阿里了。除了在最新的"混合推理模型"千 问3宣布开源当日,火速官宣接入适配后,5月9日,英伟达还 开源了全新的代码推理模型Open Code Reasoning (后续简称:OCR),包括7B、14B、32B三种尺寸, 基础模型用的都是通义千问。 在LiveCodeBench 评测中,成功超越Open AI 公司o3-mini和o1模型的英伟达OCR-Qwen-32B-Instruct模 型,正是基于Qwen2.5-32B微调形成的。 在通义千问已经迭代至3.0版本,模型性能再度突破的当下,英伟达居然还基于上一代千问模型做出了 比肩全球一流水平的模型,让人不禁想问,千问到底还有多少隐藏潜力待各方解锁? DeepSeek、李飞飞后,英伟达也相中了"通义千问" 目前,英伟达开源的OCR系列模型的代码及数据集,已公开分享至全球最大AI开源社区Hugging Face平 台上,供开发者们免费浏览学习。 其中,英伟达OCR-Qwen-32B-Instruct在LiveCodeBench ...
访清华孙茂松:中国“强音”推大模型开源,全球大模型文化正在扭转
Huan Qiu Wang Zi Xun· 2025-04-30 08:51
中新网北京4月30日电 (记者 夏宾)清华大学人工智能研究院常务副院长、欧洲科学院外籍院士孙茂松近 日在北京接受中新网记者专访时称,中国科技公司在大模型领域掀起的开源浪潮向全球发出了中国"强 音",其技术在获得国际认可的同时,悄然扭转了全球大模型文化。 来源:中国新闻网 最新消息显示,4月29日凌晨,新一代通义千问模型Qwen3(千问3)宣布开源,总共涉及8款不同尺寸的 千问3模型。据悉,阿里通义已开源200余个模型,全球下载量超3亿次,其衍生模型数超10万个,超越 美国Llama,成为全球第一开源模型。 以DeepSeek、Qwen为代表的中国开源模型实现先进模型的参数权重、推理逻辑和工具链条的全开源, 正在打开人工智能商用的新局面。 "尽管DeepSeek总体上是一个'从1到2'的创新,但在人工智能反馈强化学习方面是开源大模型中走得最 远的,将人类反馈变成了人工智能反馈。"谈到DeepSeek时,孙茂松说。 孙茂松特别强调了小模型的重要价值。从应用的角度,小模型可降低成本,拓展应用的普及度;从研究 的角度,小模型可有助于高校科研机构应对资源约束带来的研究挑战,这些都有很强的必要性。 在他看来,大模型做得越 ...
(经济观察)中国大模型密集开源 影响几何?
Zhong Guo Xin Wen Wang· 2025-03-25 16:39
(经济观察)中国大模型密集开源 影响几何? 中新社北京3月25日电(记者夏宾)今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模 型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 四是AI大模型能力提升显著,从"可用"进入"高可用"时刻,用户、应用由此进入爆发性增长时刻。 据中国工信部官方消息,目前,中国已成为全球开源参与者数量排名第二、增长速度最快的国家。 另有数据显示,阿里通义开源模型的衍生模型数量已突破10万个,成为全球最大的开源模型族群。 中国大模型密集开源,影响几何? 中国科学院院士梅宏曾表示,大语言模型在未来需要像互联网一样,走向开源,由全世界共同维护 一个开放共享的基础模型,尽力保证其与人类知识的同步。否则,任何一个机构所掌控的基础模型都难 以让其他机构用户放心地上传应用数据,也就很难产生足以满足各行各业业务需求的大量应用。 DeepSeek(深度求索)达成过"开源周",其在2月末连续五天发布五个代码库,并于近日继续开源上 线了升级后的DeepSeek-V3模型。 阶跃 ...
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 14:03
"当 AI 足够强大后,开源还是不是一个好选择?" 整理丨刘倩 程曼祺 嘉宾丨美国西北大学 MLL Lab 博士王子涵 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#102 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 这是《晚点 LatePost》 「开源对话」系列的第 2 篇。该系列将收录与开源相关的访谈与讨论。系列文章见文末的合集#开源对话。 上周五,DeepSeek 在官方 Twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 "open-source week"开源周。 目前 DeepSeek 已放出的 4 个库,主要涉及 DeepSeek-V3/R1 相关的训练与推理代码 。 这是比发布技术报告和开源模型权重更深度的开源。 有了训练和推理 工具,开发者才能更好地在自己的系统里,实现 DeepSeek 系列模型的高效表现。 (注:所有 4 个库和后续开源可见 DeepSeek GitHub 中的 Open-Inf ...
对谈 98 年就做开源的章文嵩:要像维基百科那样,开源共建大模型数据集丨开源对话#1
晚点LatePost· 2025-02-27 14:03
"真正的大模型开源,应该把数据集也开源。" 文丨贺乾明 编辑丨宋玮 过去两个月,DeepSeek 重塑全球大模型格局,也扭转了整个行业对开源的理解。 OpenAI 反思走向闭源是 "站在历史错误的一边",百度、MiniMax、阶跃星辰等原本闭源的公司转向开源。 "如果在以前,一个拿几亿美金融资的公司说自己要开源,估计投资人会吐血。" 一位科技投资人说。 DeepSeek 还在加大开源力度。这周,DeepSeek 计划开源 5 个训练、推理大模型相关的代码库——而大多数开源模型的公司还停留 在开放模型权重层面。 到底该怎么看待 DeepSeek 的开源?它对大模型开源社区意味着什么?为什么不同公司选择不同的开源策略?选择开源对一家商业 公司到底意味着什么? 近期,我们访谈了中国开源先驱章文嵩。他 1995 年读硕士期间接触到开源,那时中国刚通互联网不久,不少 DeepSeek 的研究者还 没有出生。 1998 年,章文嵩在国防科大读博期间开源了 LVS(Linux 虚拟服务器)软件,这个均衡服务器访问流量、避免宕机的系统,是中国 最早在全球科技行业扩散的开源项目,如今是互联网基础设施的组件。 "几乎所有的互联网 ...