语言模型

Search documents
对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
晚点LatePost· 2025-04-29 08:43
可能是更高效、更便宜的 Agent 实现路径。 文 丨 孙海宁 编辑 丨 程曼祺 主流 AI Agent 都把大语言模型(LLM,或者它的多模态版本)当作 "大脑",靠一个或几个 LLM 编 排工作、调用工具。但也有另一条路:Agent 规划、作业靠不依赖自然语言的强化学习模型,LLM 只 充当 Agent 和人类的 "交互层"。 不一样的想法,来自去年 10 月成立,至今只有 4 个正式员工的 Pokee.ai。 Pokee.ai 创始人朱哲清有十余年强化学习研究、落地经验。2017 年起,从杜克大学计算机科学专业毕 业的朱哲清,一边在斯坦福大学攻读强化学习方向博士学位,师从 Benjamin Van Roy;一边在 Meta 工作,曾任 Meta"应用强化学习" 部门负责人,他用强化学习算法改善内容推荐系统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 Meta 增收 5 亿美元。 靠 LLM 规划、决策,是个自然而主流的想法。OpenAI Operator 和网页交互、操作电脑的能力基于 GPT-4o 模型,Manus 完成任务则是靠 Claude 3.5 Sonnet 模型做长程规划。 ...
阿里Qwen3系列开源:混合推理模式、性能超越DeepSeek R1
Founder Park· 2025-04-29 03:16
以下文章来源于赛博禅心 ,作者金色传说大聪明 赛博禅心 . 拜AI古佛,修赛博禅心 今天凌晨,Qwen3 发布。 本次共开源 8 款模型,包括 2 款 MoE 模型、6 款 Dense 模型。 Qwen3 系列 在代码、数学、通用能力等方面能力表现优异, 其中 235B 版本,在基 准测试上的水平超过了 671B 的 DeepSeek R1 。 同时, Qwen3 引入了「 思考模式/非思考模式 」无缝切换的功能。 在 思考模式下, 模型逐步推理,经过深思熟虑后给出最终答案。非思考模式 下,能够 提供快速的即时响应,适用于简单问题的回答。混合推理的模式平衡了算力和输出效果。 此外, Qwen3 系列提高了 Agent 能力, 同时也加强了对 MCP 的支持。Qwen 配套了一个 Qwen-Agent 项目,可以使用 API 进行工具调用, 或结合现有的工具链进行扩展。 | | | Qwen3 | | | | | | --- | --- | --- | --- | --- | --- | --- | | | | 通义千问最新一代大模型:采用混合专家架构,具备思考与快速回答双模式,支持119种语言 | | | | ...
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
硬AI· 2025-04-29 00:18
根据摩根士丹利Joseph Moore团队25日发布的报告, 这种强劲的需求主要驱动因素在于token生成量的 增长,自年初以来,token生成量增长了5倍以上 ,这给生态系统带来了巨大压力,并推动了对处理这些 工作负载的投资激增。 点击 上方 硬AI 关注我们 大摩指出,受益于大型语言模型对推理芯片的巨大需求,英伟达面临GPU供不应求局面。但在持续的供应限制、毛利率 压力等负面影响下,大摩轻微下调英伟达目标价至160美元。长期来看,公司增长轨迹依然强劲。 硬·AI 作者 | 张雅琦 编辑 | 硬 AI 过去四周,投资者情绪因宏观经济和供应链风险而恶化,但与此同时,对英伟达GPU核心的需求却因主要 大型语言模型(LLM)对推理芯片的巨大需求而飙升,且这种需求遍及所有地区。 多家AI公司报告用户数量呈爆炸式增长,例如,Open Router等API公司的数据显示,许多公司为满足推 理软件的巨量需求,被迫争抢GPU资源,甚至出现"最后一块GB200"在2025年仅剩一块的状况。 摩根士丹利认为, 这种对推理的需求是关键。 这是由使用模型并产生收入的部分驱动的,证明了推理模 型的扩展是真实存在的,这与仅依赖于风险投 ...
Qwen3深夜正式开源,小尺寸也能大力出奇迹。
数字生命卡兹克· 2025-04-29 00:05
小道消息一直在说,昨天深夜或者今天凌晨,阿里会发Qwen3。 然后我特意早早的睡了一两小时,凌晨1点起床,就为了等Qwen3发。 结果这一等,就是好几个小时。。。 不过,功夫不负有心人。 凌晨5点,我眼睛都睁不开的时候,终于等到了。 Qwen你赔我睡眠。。。 把报告看完,我总结一下,觉得最大的亮点有6个: 1. 模型能力登顶全球,这个没啥可说的,就是No.1。 2. 第一个开源的混合推理模型。 3. 8个不同尺寸的模型,几乎覆盖了所有场景。 4. 成本很低, 旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。 5. 支持MCP协议。 6. 居然还支持了119种语言。 一起说吧。 就像我们其实都知道,DeepSeek这个深度思考,你打开的时候,是R1模型,但是你关掉,其实用的是v3来给你回答。 但是Qwen3,是一体的。 是一个模型,只不过支持了两种模式,这个不管对于开发者还是使用者,都方便很多。 这次发了8个模型,Qwen3-0.6B、1.7B、4B、8B、14B、32B,这6个都是Dense稠密模型。 还有两个重量级MoE模型,Qwen3-30B-A3B,和旗舰版的Qwen3-235B-A2 ...
阿里Qwen3深夜开源,8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星
3 6 Ke· 2025-04-28 23:23
此次全新升级的Qwen3系列有以下5大关键特性: 8种参数大小的稠密与MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350亿总参数和220亿激活参数)、Qwen3-30B-A3B(300亿总 参数和30亿激活参数); 引入混合思考模式:用户可切换"思考模式、"非思考模式",自己控制思考程度; 推理能力提升:在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下); 阿里通义大模型新成员Qwen3系列模型终于亮相! 智东西4月29日报道,今日凌晨4点,阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型。发布2小时,Qwen3模型在GitHub上的star数已超 过16.9k。 | Product v | Solutions v | Resources v | Open Source v Enterprise V | | Pricing | | | | Q | Sign in | Sign up | | --- | --- | --- | --- | --- | --- | --- ...
全球首个电池AI“分子宇宙”将开放测试
高工锂电· 2025-04-28 12:55
"分子宇宙"的无穷潜能正等待电池产业开掘。 北京时间4 月 29 日 晚 11 时( 美东时间 4 月 29 日中午 11 时) , SES AI 将公开全球首个电池领域专用 " 分子宇宙 " ( Molecular Universe , MU-0 ),并进行公开演示。 " 分子宇宙 " 是 SES AI 推出的一款电池领域 AI4S 解决方案,涵盖 10 的 11 次方个可用于电池的小分子,并电池专用的大语言模型驱动 训练而成的导航系统,让全球顶尖电池科学家的专业知识 " 触手可及 " 。 SES AI 表示, " 分子宇宙 " 可理解为一个专用于电池材料开发的 " 导航地图 " 或 " 参考词典 " 。通过 " 分子宇宙 " 软件,用户可精准 地筛选出所需材料,打开电池材料创新想象空间。 对于电池产业链企业而言,"分子宇宙"的现实价值在于加速或替代R&D,除了现阶段查询未知分子的功能,未来"分子宇宙"还将延伸到到材 料配方、电芯设计、电池测试等多个环节,实现电池开发全流程的加速。 具体而言, " 分子宇宙 " 软件具备三大方面的优势。 首先是庞大且持续扩展的数据库 —— 分子图谱。当前版本( MU-0 ) ...
细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!
AI前线· 2025-04-28 11:10
作者|冬梅 字节 Top Seed 启动 2026 届招聘,瞄准顶尖博士 4 月 27 日,字节跳动 Seed 在其官微上发布了一则招聘启示,宣布正式启动 2026 届 Top Seed 大模型顶尖人才校招计划, 研究课题包括大语言模型、机器学习算法和系统、多模态生成、多模态理解、语音等方向,基本覆盖大模型研究各个领域, 计划招募约 30 位顶尖应届博士。 值得一提的是,本届 Top Seed 强调不限专业背景,更关注研究潜力,希望寻找具有极强技术信仰与热情、具备出色研究能 力、富有好奇心和驱动力的年轻研究者。 值得注意的是,字节跳动在此次招聘启事中还透露了几位刚毕业的同学已经做出了一些有影响力的研究。 比如,Z 同学构建并开源了首个多语言代码修复基准 Multi-SWE-bench,在 SWE-bench 基础上,首次覆盖 Python 之外的 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 七种编程语言,1632 个真实修复任务,是真正面向"全栈工程"的评测 基准,其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。 ...
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 08:04
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍 阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。 PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位 全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越 的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。 在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强 化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 "超越人类专家"。 但是,随着模型能力和评测基准的军备竞赛白热化, 越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。 这些题目虽然能 ...
形成燎原之势 人形机器人还需要添上哪把“火”
Zheng Quan Shi Bao Wang· 2025-04-28 05:59
先有人形机器人投资存在泡沫引发争论,后有半程马拉松比赛上人形机器人被"祛魅",人形机器人到底 行不行?在日前机器人全产业链接会同期论坛上,美团机器人研究院理事、美团高级商务总监、美团无 人机软件产品研发负责人陈天健断言:人形机器人投资完全没有泡沫。 据介绍,从技术发展阶段来看,当前大语言模型可能处于第一阶段末期,需要优胜劣汰;人形机器人还 处于第一阶段早期,各种方案百花齐放,各种技术路线在推进,整个行业所获得的投资强度还远远不 够。 "今年是人形机器人元年,业务场景百花齐放,但还没有形成燎原之势。" 雷赛智能(002979)董秘向 少华表示。 诚然,在人工智能与硬件科技加持下,人形机器人取得了突出进展,但是其能力短板也很明显。业内人 士指出,机器人的动脑能力几乎堪比博士生,但动手能力可能还处于幼儿园阶段。在本次大会上,需求 端反馈在非标准化作业环境中,人形机器人能力还亟需提升。 作为全球最大的电子科技制造服务商,富士康很早就开始着手制造机器人。 富士康自动化技术中心自动化与机器人技术长王树华介绍,富士康从十几年前就开始制造自己的机器 人,外购工业机器人占比一半,总数大约10万台。在生产流水线上,前端工序比较容 ...
TMT行业周报(4月第4周):MCP协议有望加速Agent产品落地-20250428
Century Securities· 2025-04-28 02:58
[Table_ReportDate] 2025 年 04 月 28 日 [Table_Author] 分析师:李时樟 执业证书:S1030522060001 电话:18065826333 邮箱:lisz@csco.com.cn 分析师:罗晴 执业证书:S1030524110001 电话:13603091122 邮箱:luoqing@csco.com.cn 公司具备证券投资咨询业务资格 证券研究报告 TMT [Table_Title] MCP 协议有望加速 Agent 产品落地 TMT 行业周报(4 月第 4 周) [Table_S 行业观点: ummary] 请务必阅读文后重要声明及免责条款 [Table_Industry] [Table_ReportType] [Table_BaseData] 1) 周度市场回顾。TMT 板块内一级行业上周(4/21-4/25)涨跌 幅为:通信(1.32%)、计算机(0.99%)、电子(0.83%)、 传媒(-0.11%)。板块内涨幅靠前的三级子行业分别为通信网 络设备及器件(5.62%)、消费电子零部件及组装(4.06%)、 通信线缆及配套(3.82%),跌幅靠前的三级子 ...