Workflow
开源模型
icon
Search documents
心言集团高级算法工程师在Qwen 3发布之际再谈开源模型的生态价值
Sou Hu Cai Jing· 2025-05-06 19:02
4月29日,阿里新一代的大模型 Qwen 3发布。以 DeepSeek+Qwen 的中国开源组合,正在以中国开源生态"双子星"之势,取代过去 Llama 为主,Mistral 为 辅的开源生态。 Qwen 3 发布后,Founder Park采访了不同行业的 AI 创业公司代表,就开源闭源如何选择、模型的微调、模型能力瓶颈,以及大模型创业 的坑等方面进行了访问。心言集团开源布道师、高级算法工程师"左右"在接受采访的过程中,从心言集团的实践视角剖析了中国开源模型的崛起路径,并 分享了自己在开源生态赋能下的业务探索与技术思考。 以下为采访实录: 开源、闭源模型如何选择? 左右:从我们目前的业务角度看,绝大部分(可能 90% 以上)需要使用我们自己微调(fine-tuned)的模型,因此主要是本地化部署后供线上使用。同 时,对于某些特定任务,比如数据构造、数据蒸馏,或者需要利用特定大模型(如 GPT、豆包、Qwen)的能力时,我们会直接调用它们的 API。 本地部署的主要是基于 Qwen 的微调模型,根据不同的业务入口,我们会使用不同量级的模型。常用的是 7B、32B 和 72B 这几个版本。此外,我们还有 一些具 ...
互联网大厂五一前密集开源新模型,布局各异谁将留在牌桌?
Nan Fang Du Shi Bao· 2025-05-01 14:12
据悉,阿里云此次开源的千问3是国内首个"混合推理模型",即将"快思考"与"慢思考"集成进同一个模型,对简单 需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",这样能大大节省算力消耗。在阿里巴巴千问3开源 后,上下游供应链连夜进行适配和调用,NVIDIA、高通、联发科、AMD等多家头部芯片厂商已成功适配千问3。 其中,阿里云今年已持续开源了通义万相首尾帧生视频14B模型、首个端到端全模态大模型通义千问Qwen2.5- Omni-7B、阿里万相2.1模型、视觉理解模型Qwen2.5-VL等模型。对于阿里云的持续开源策略,知名数字经济学 者、工信部信息通信经济专家委员会委员盘和林向南都记者表示,阿里云的开源逻辑很简单,阿里云的模型是开 源、免费的,但阿里云的硬件比如算力、各类软件工具、容器是不免费的,开源模型要和自己的数据结合形成自 己的AI,阿里云以模型开源来切入AI应用并在别的方面实现盈利,开源对阿里整个云服务生态是有利的。 赶在五一假期前,国内大模型厂商接连开源。4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问 3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超 ...
聊一聊数据中心的投资现状
傅里叶的猫· 2025-04-30 12:37
最近我们花了很多精力在H200/B200这些数据中心的服务器上,只能说坑很多,套路很深,但好事多 磨,最近的收货让我们觉得做件事是值得的。 这篇文章我们就来简单聊一下数据中心的投资现状,综合TD Cowen报告、The Information/BBG文章 及多位行业专家访谈,看下国外的大厂对IDC的态度,后面我们还有专门写一期 国内IDC 投资现 状。 微软数据中心投资放缓 相信大家也都看到这个新闻,微软正经历数据中心投资需求的显著放缓或调整。自去年起退出超 1GW的数据中心交易,并终止部分土地合同。放缓国际扩张步伐,并暂停/推迟了多个国内外项目, 包括美国(亚特兰大、威斯康星二期、圣安东尼奥、堪萨斯城、锡达拉皮兹)及欧洲、印度、英 国、澳大利亚等地,涉及规划租赁需求减少近1.98GW(原计划4年完成,年均约500MW)。 导致调整的原因是多方面的: 1. 资源消化:消化2024年已大量租赁的资源,避免过度建设。 2. 建设复杂性:超大规模数据中心设计和建设本身复杂,导致客观延迟。 3. OpenAI战略转移:OpenAI不再完全依赖微软,转向甲骨文、CoreWeave等第三方并大力推进自 建,导致微软为其规 ...
扎克伯格最新专访:AI 会在知识工作和编程领域,引发一场巨大的革命
Sou Hu Cai Jing· 2025-04-30 10:02
近日,Meta首席执行官马克·扎克伯格接受了媒体采访,全程信息量满满。访谈中, 扎克伯格谈到了 Meta如何看待下一步AI发展格局,并回应了外界认 为"DeepSeek吊打Meta"的质疑。 他表示,通过比较Llama 4 模型与 DeepSeek 的能力可知, 尽管 DeepSeek 可能在特定领域取得了显著进展,但Llama 4模型能够提供更高的效率和更广泛 的功能。 以下为采访内容(有删节): 马克·扎克伯格:在我看来,世界会变得更加有趣、甚至有些奇特。根据我的经验,如果你觉得别人做的事情不好,但他们自己却认为很有价值,那么通 常是他们对,你错了。 主持人Patel: 我们似乎正在消除技术利用奖励机制来完全操纵我们的所有障碍。 马克·扎克伯格:我们正在努力构建能推进 Llama 研究的编码代理。我估计 在未来 12 到 18 个月内,我们将达到一个阶段,届时这些研发工作所需的大部 分代码都将由 AI 编写。我倾向于认为,至少在可预见的未来,这反而会增加对人类工作的需求,而非减少。如果你将提供服务的成本降至原来的十分之 一,那么现在去做这件事实际上可能是有意义的。 主持人Patel:你上次来的时候,发布了 ...
Qwen 3发布,Founder Park围绕开源模型的生态价值采访心言集团高级算法工程师左右
4月29日,阿里新一代的大模型Qwen3发布。以DeepSeek+Qwen的中国开源组合,正在以中国开源生态"双 子星"之势,取代过去Llama为主,Mistral为辅的开源生态。Qwen3发布后,Founder Park采访了不同行业 的AI创业公司代表,就开源闭源如何选择、模型的微调、模型能力瓶颈,以及大模型创业的坑等方面进行 了访问。心言集团开源布道师、高级算法工程师"左右"在接受采访的过程中,从心言集团的实践视角剖析 了中国开源模型的崛起路径,并分享了自己在开源生态赋能下的业务探索与技术思考。 以下为采访实录: 开源、闭源模型如何选择? 左右:从我们目前的业务角度看,绝大部分(可能90%以上)需要使用我们自己微调(fine-tuned)的模型,因 此主要是本地化部署后供线上使用。同时,对于某些特定任务,比如数据构造、数据蒸馏,或者需要利用 特定大模型(如GPT、豆包、Qwen)的能力时,我们会直接调用它们的API。 本地部署的主要是基于Qwen的微调模型,根据不同的业务入口,我们会使用不同量级的模型。常用的是 7B、32B和72B这几个版本。此外,我们还有一些具身智能的业务,考虑到用户隐私和多模态处理 ...
Meta发布独立AI应用挑战ChatGPT,可联动AI眼镜
Di Yi Cai Jing· 2025-04-30 07:50
在官方博客中,Meta介绍了Meta AI具体的个性化体验,包括用户可以让助手记住个人的某些信息(例如,喜欢旅行和学习新语言),它就能根据上下文提 取重要信息。Meta AI 助手还会利用已在Meta其他产品上分享的信息(例如个人资料以及点赞或参与的内容),为问题提供更相关的答案。 AI普惠之后,商业化是开源模型厂商们需要面对的问题。 在科技大厂关于AI落地的竞争中,Meta是较为特别的那个。OpenAI(ChatGPT)、谷歌(Gemini)和微软(Copilot)都有面向用户独立的AI应用,但Meta 的选择是将AI功能覆盖到公司旗下主流的社交App如Facebook、Instagram里。 但现在Meta发现,为了提供更丰富的AI体验,得加入AI应用的"战争"了。 北京时间4月30日,Meta举办了首届聚焦AI业务的LlamaCon开发者大会,会上正式发布了对标ChatGPT的智能助手Meta AI App,这一应用基于Llama最新模 型打造。 AI智能助手早已不稀奇,但这次Meta AI强调了两个特色。一方面,Meta将旗下社交媒体账号与Meta AI打通,登录账号即可了解用户偏好、记住上下文,并 ...
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
3 6 Ke· 2025-04-29 09:53
今天凌晨,大模型领域最受关注的重磅消息来自阿里 Qwen 团队——他们正式发布了备受期待的全新 Qwen3 系列大模型。 8 大模型齐发! 这 8 款混合推理模型中,包括了 2 个 MOE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B。 其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超过 220 亿。 在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领 域的 ArenaHard 测试(共 500 道题)中,成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Deepseek-R1 | Grok 3 Beta | Gemini2.5-Pro | Open Al-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | MO ...
【昇腾全系列支持Qwen3】4月29日讯,据华为计算公众号,Qwen3于2025年4月29日发布并开源。此前昇腾MindSpeed和MindIE一直同步支持Qwen系列模型,此次Qwen3系列一经发布开源,即在MindSpeed和MindIE中开箱即用,实现Qwen3的0Day适配。
news flash· 2025-04-29 06:27
昇腾全系列支持Qwen3 金十数据4月29日讯,据华为计算公众号,Qwen3于2025年4月29日发布并开源。此前昇腾MindSpeed和 MindIE一直同步支持Qwen系列模型,此次Qwen3系列一经发布开源,即在MindSpeed和MindIE中开箱 即用,实现Qwen3的0Day适配。 ...
通义App全面上线千问3
news flash· 2025-04-29 03:13
4月29日,通义App与通义网页版(tongyi.com)全面上线阿里新一代通义千问开源模型Qwen3(简称千 问3)。用户可以第一时间在通义App和网页版中的专属智能体"千问大模型",以及主对话页面,体验 到全球最强开源模型的顶级智能能力。(全天候科技) ...
阿里巴巴,登顶全球开源模型!
Zheng Quan Shi Bao· 2025-04-29 02:41
4月29日,阿里巴巴开源了备受期待的新一代通义千问模型Qwen3(简称千问3),在GPQA、 AIME24/25、LiveCodeBench等多个权威基准测试中全面超越R1、OpenAI-o1等全球顶尖模型,表现出 极具竞争力的结果,登顶全球开源模型。 四是支持MCP协议,具备强大的工具调用能力。在评估模型智能体能力的BFCL评测中,千问3拿下70.8 的新高,超越谷歌Gemini2.5-Pro、OpenAI-o1等顶尖模型,大幅降低智能体调用工具的门槛。千问3还 支持MCP(模型上下文协议),并具备强大的工具调用能力,能够实现高效的手机及电脑智能体操作 等任务。 五是部署成本大幅下降。在性能大幅提升的同时,千问3的部署成本大大降低。满血版 671B 参数量的 DeepSeek-R1需要8张H20(价格大约100万元)进行部署,适合低并发场景;一般推荐使用16张H20部 署,总价约200万元。而千问3的旗舰模型仅需3张H20(大约36万元)即可部署,推荐使用4张H20部 署,总价约50万。因此,从部署成本角度看,千问3旗舰模型是满血版R1的25%—35%,部署成本大降 75%—65%。 其中,在奥数水平的AI ...