Workflow
开源模型
icon
Search documents
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
量子位· 2025-07-07 07:43
WebSailor团队 投稿 量子位 | 公众号 QbitAI 在互联网信息检索任务中,即使是很强的LLM,有时也会陷入"信息迷雾"之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索 就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如"某城市的人口是多少"),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如"这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于 哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?",人类和AI都很难直接找到入口。 这类问题需要阅读许多网页、抽丝剥茧地拼凑线索,逐步把迷雾拨开,才能找到答案。这超出了人类有限记忆和注意力的负荷,也远远超出了 普通开源模型的能力范围。 有没有办法让开源的大模型也掌握这种拨云见日的本领? 阿里巴巴通义实验室最新提出的方案WebSailor通过一整套创新的post-training方法,大幅提升了开源模型在复杂网页推理任务上的表现。 此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个 ...
AI周报|华为盘古团队否认开源模型抄袭;英伟达市值逼近4万亿美元
Di Yi Cai Jing· 2025-07-06 01:52
苹果或弃自研模型转投OpenAI和Anthropic;Meta成立超级智能实验室。 华为盘古团队否认开源模型抄袭 7月5日,华为诺亚方舟实验室发布声明称,盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基 础大模型,并非基于其他厂商模型增量训练而来。对此,盘古团队在声明中称,盘古Pro MoE开源模型 部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源代码。盘古团队严格遵 循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明。 点评:华为此前6月30日宣布开源盘古7B稠密和72B混合专家模型,随后,一项发布于GitHub的研究引 发业界热议,该研究的作者认为,华为推出的盘古大模型与阿里巴巴发布的通义千问Qwen-2.5 14B模型 在参数结构上存在"惊人一致",两个模型在注意力参数分布上的平均相关性高达0.927,远超其他模型 对比的正常范围。 英伟达市值逼近4万亿美元 当地时间7月3日盘中,英伟达市值一度突破3.92万亿美元,短暂超过苹果在2024年年底时创下的3.915万 亿美元全球最高市值,并逼近4万亿美元。截至7月3日收盘,英伟达股价上涨1.33%,股价159.3 ...
人均1亿美元年薪挖人;机器狗售价1299美元,会踢球会聊天;小米1999元AI眼镜,深夜放大招…… |混沌 AI 一周焦点
混沌学园· 2025-07-04 10:12
本周核心趋势 2025年7月2日 1、「重磅事件」 Meta疯狂挖角OpenAI华人AI大牛:硅谷上演人才争夺战 Meta创始人扎克伯格以人均 1亿美元年薪+无限制算力 挖走8名OpenAI核心研究员,其中7人为华人顶尖 人才!试图组建50人"超级智能团队"对抗OpenAI。 本周AI商业焦点必读 (2025.6.24-7.3) 巨头抢人,开源崛起: Meta天价挖角OpenAI,暴露巨头人才垄断危机,开源模型将加速普及,小 公司机会变多! AI智能体别光吹牛: Gartner警告40%项目要黄,烧钱不实用的AI智能体(Agent)会死掉,能真干 活的才能活下来! AI赋能,改造老行当: 美团用数据帮开店,小米做AI眼镜,AI正深入改造餐饮、硬件等传统行业, 落地为王! 小模型猛,开源真香: 智谱、快手的小模型性能炸裂,黑森林开源叫板巨头,好用又便宜的开源小 模型是创业新利器! 这场争夺战暴露了AI行业顶尖人才垄断化趋势,Meta的Llama 4模型失利加速了人才掠夺,而OpenAI面 临GPT-5研发窗口期被压缩的危机。未来,随着xAI等新势力加入战局(如马斯克团队同期发布Grok 4),全球AI人才流动或 ...
赛道Hyper | Black Forest开源新模型:文本P图党福音
Hua Er Jie Jian Wen· 2025-07-03 05:50
Black Forest官方测试报告显示,该模型在人类偏好评估、指令编辑等多项关键指标优于OpenAI最新发 布的GPT-image-1,标志着开源模型在高精度图像编辑领域取得新进展。 FLUX.1-Kontext的技术架构由自然语言解析、图像生成和多模态融合三个关键模块构成。 自然语言解析层采用改进型Transformer架构,配置8层自注意力机制,能对用户指令做深度语义拆分。 比如面对"将画面左侧咖啡杯替换为青花瓷杯,杯内咖啡表面添加拉花图案"的指令,系统可精准识别出 对象替换、材质变更、细节添加等子任务,并分配相应权重。 图像生成引擎基于改进版扩散模型(DPM-Solver++)构建,创新引入动态噪声调度机制。 作者:周源/华尔街见闻 在AI绘画领域竞争白热化的当下,开源与闭源模型的博弈持续深化。 6月底,知名开源平台Black Forest推出文生图模型FLUX.1-Kontext开发者版本,凭借"自然语言指令实现 图像编辑"的核心功能,迅速成为行业焦点。 该机制可依据指令复杂程度自动调整去噪迭代次数:处理"将天空改为黄昏色调"等简单指令时,20步内 即可完成;面对"将人物服装添加复古刺绣纹样"等复杂 ...
腾讯混元推出首款开源混合推理模型,擅长Agent工具调用和长文理解
news flash· 2025-06-27 08:43
6月27日,腾讯混元宣布开源首个混合推理MoE模型 Hunyuan-A13B,总参数80B,激活参数仅13B,效 果比肩同等架构领先开源模型,但是推理速度更快,性价比更高。这意味着,开发者可以用更低门槛的 方式获得更好的模型能力。即日起,模型已经在 Github 和 Huggingface 等开源社区上线,同时模型API 也在腾讯云官网正式上线,支持快速接入部署。此外,也这是业界首个13B级别的MoE开源混合推理模 型。(全天候科技) ...
大模型首次直接理解代码图:不用Agent自动修bug,登顶SWE-Bench开源模型榜单
量子位· 2025-06-27 06:08
来自蚂蚁的开源新模型,在SWE-bench Lite上 超越所有开源方案 ,性能媲美闭源模型。 具体表现如下,在SWE-bench Lite上: 明敏 发自 凹非寺 量子位 | 公众号 QbitAI AI自动修bug,解决率达 44% !这是全球开源模型的最新 最强水平 。 | | | SWE-bench | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | Lite Verified Multimodal | Full | | | | | | | | Open Weight Model V Open Source System Checked | | (All Tags Selected) | | | | | | | Model | | % Resolved | Org | Date | Logs | Trajs | Site | | CodeFuse-CGM | | 44.00 | JEFK | 2025-03-10 | V | V | 6 | | KGCompass + DeepSeek V3 | | 36.67 | (1) | ...
苹果Meta狂抓AI,抢人并购
Hu Xiu· 2025-06-23 23:27
对AI一直磨磨蹭蹭的苹果与Meta,最近开始抓狂,在硅谷大肆抢人并购。它们突然意识到,AI可能颠覆端侧设备体验和整个APP生态,也可能颠覆未来的 广告模式。 再不跟上AI三巨头微软、亚马逊和谷歌,还有OpenAI、Anthropic、xAI,苹果和Meta可能会在最近一轮"超级智能"的炒作中开始边缘化。 140亿美元估值的Perplexity,100亿估值的Thinking Machines Lab,是库克与扎克伯格的共同之选。Meta已经143亿美元收购了Scale AI近半数股份,还曾动 议收购如今320亿美元估值SSI,也就是把Ilya Sutzkever收至麾下;媒体的报道还提到了估值55亿美元的Cohere、45亿美元的Sierra AI、60亿美元的Mistral 等,甚至620亿美元的Databricks的可能性。 Meta与苹果,都遭遇了缺人、缺方向的困局。苹果不相信现有的技术可以实现令其满意的用户体验;Meta则很长一段时间纠结于现在的技术方向能否最 终真正理解物理世界。 Meta与苹果,满是江湖恩怨。年初,扎克伯格公开批评苹果自iPhone以来"没有任何重大创新"。但很快,市场意识到Met ...
网易有道开源首个专注数学教育的模型
news flash· 2025-06-23 09:15
网易有道宣布正式开源"子曰3"系列大模型的数学模型(英文名称Confucius3-Math)。这是国内首个专 注于数学教育,可在单块消费级GPU上高效运行的开源推理模型。 ...
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
机器之心报道 编辑:杜伟 在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。 今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其 中 DeepSeek-R1(0528)的成绩尤为引人瞩目 。 | | Rank (UB) ↑ Model ↑↓ | | Score 11 | | 95% Cl (±) 1↓ Votes 1J | لا Organization 1 | License 1لا | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro-preview-06-05 | 1468 | +8/-6 | 8,454 | Google | Proprietary | | | 2 ...
互联网女王报告揭秘硅谷现状:AI指数级增长,中国厂商在开源竞争中领先 | 企服国际观察
Tai Mei Ti A P P· 2025-06-11 02:33
Core Insights - The report by Mary Meeker highlights the unprecedented speed and scale of AI adoption, indicating a transformative impact on technology history [3][6][22] - AI is experiencing exponential growth, with ChatGPT reaching 800 million users in just 17 months, surpassing any product from the internet era [3][8] - The report emphasizes a shift in AI development focus from academia to industry, driven by proprietary interests and competitive advantages [6][10] User Growth - ChatGPT achieved 800 million users within 17 months, with an annual recurring revenue growth rate that outpaces any product from the internet era [3][8] - The rapid user adoption of AI technologies is reshaping the landscape of digital interaction and functionality [8][18] Cost Dynamics - Training costs for AI models can reach up to $1 billion, but inference costs have decreased by 99% over two years [4][14] - The energy efficiency of GPUs has significantly improved, with NVIDIA's 2024 Blackwell GPU showing a 105,000-fold reduction in power consumption compared to the 2014 Kepler GPU [4][14] Competitive Landscape - The rise of Chinese firms in the AI space is notable, with open-source approaches enabling rapid advancements and global competition [4][10] - Closed-source models like OpenAI's GPT-4 and Anthropic's Claude dominate enterprise applications due to their superior performance, despite lacking transparency [6][10][13] Infrastructure and Investment - The demand for AI infrastructure is increasing, putting pressure on cloud providers and chip manufacturers [8][21] - Significant capital investment is required for AI development, with ongoing competition among companies for key technologies like chips and data centers [21][22] Job Market Impact - Since 2018, job vacancies related to AI have surged by 448%, indicating strong demand for talent in the AI sector [19][22] - AI is evolving roles in various professions, enhancing productivity rather than replacing jobs [18][22] Market Segmentation - The AI market is bifurcating into closed-source models, which are favored by enterprises, and open-source models, which are gaining traction among developers and startups [10][12][13] - Open-source models are becoming increasingly competitive, offering low-cost alternatives with robust capabilities [12][13] Strategic Implications - Companies are shifting from selling isolated software licenses to integrating AI functionalities across their technology stacks, focusing on delivering tangible outcomes [21][22] - The competition in AI is likened to a space race, highlighting the strategic importance of technological advancements in this field [21][22]