AI科技大本营

Search documents
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 01:33
分享嘉宾 | 郭春超 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 现在这个时代,我们玩的游戏、看的电影、甚至未来的虚拟世界,都离不开精细逼真的三维(3D)模型。然而,制作这些 3D 内容,过去常常意味着 耗时数周甚至数月的人工建模,成本高昂且效率低下。就像平面设计曾被 Photoshop 改变一样,人工智能正在瞄准 3D 领域,试图彻底革新数字内容 的生产方式。 在这场由 AI 驱动的 3D 生成浪潮中,腾讯混元团队推出的开源项目 Hunyuan 3D 成为了全球开发者社区的焦点。它不仅在 GitHub 上迅速积累了超过 9.6k 的 Star,跻身 3D 生成开源项目的第一梯队,更凭借其出色的模型生成效果,赢得了"几乎没有变形的 Image to 3D,恐怖如斯"这样的用户评 价。 AI 生成 3D 的能力发展到什么阶段了?它离真正改变游戏、影视、数字人等行业还有多远? 在 4 月 18-19 日举行的 2025 全球机器学习技术大会 (ML-Summit)上,腾讯混元 3D 负责人 郭春超 对此进行了详尽解读,并在会后接受了 CSDN 专访。 令人意外的是,尽管当前 3D AIG ...
Visual Studio 重磅更新!擅长处理复杂任务的 GitHub Copilot “智能体模式”预览版上线
AI科技大本营· 2025-05-15 06:14
【编者按】GitHub Copilot 智能体模式 (agent mode) 正式登录 Visual Studio! 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 微软 Visual Studio 官方 X 上正式宣布,备受期待的 GitHub Copilot 智能体模式 (agent mode) 正 式登陆 Visual Studio 17.14 预览版! 开发者通过一个提示即可让 Copilot 自主处理从计划、构 建、测试到修复的整个开发流程。 自主确定上下文与编辑文件: 无需你手动指定,Copilot 能智能判断并找到需要编辑的相 关上下文和文件; 建议终端命令供你审批执行: 它会为你生成必要的终端命令,并在你确认后执行; 持续迭代直至任务完成: 它会不断检查错误,运行构建/测试来验证结果,直到任务最终搞 定; 通过 MCP 服务器调用可信工具: 它能够调用你开发环境中的 linter(代码风格检查工 具)、test runner(测试运行器)和 static analyzer(静态分析器)等受信任的工具。 在 Copilot Chat 窗口中,切换到"Agent (智能体)" ...
破解百年数学难题,刷新算法认知!DeepMind 发布超级编码智能体 AlphaEvolve
AI科技大本营· 2025-05-15 06:14
【编者按】继 AlphaGo、AlphaFold 之后,谷歌 DeepMind 带来的全新 AI 编程智能体 AlphaEvolve 横空出世,它巧妙地结合了大型语言模型(LLM)的创 造力与自动化评估机制,不仅在矩阵乘法等经典数学问题上取得新突破,更在谷歌数据中心优化、芯片设计乃至 AI 自身训练等实际应用中展现出惊人实 力,为我们揭示了 AI 驱动算法发现的广阔前景。 整理| 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 不仅是直接写代码,而是进化出的「解决方案」 与传统的代码生成工具不同,AlphaEvolve 并不追求"直接产出答案",而是像演化生物一样迭代出越来越优秀的解决策略。它的背后是 Google DeepMind 最新的大语言模型家族 Gemini——其中 Gemini 2.0 Flash 负责高效率生成大量思路,Gemini 2.0 Pro 则在关键节点提供更深层的方案优 化。 其核心能力有: 5 月 14 日,Google DeepMind 正式官宣推出 AlphaEvolve——一款由 Gemini 强力驱动、专注于算法发现的编码智能体。 这款全新的 AI 智能体, 堪称 ...
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 09:31
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈: 尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限: Moxin-7B:从预训练到强化学习,全面透明的 AI 革新 Moxin-7B 的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循"开源科学"原则,公开了从数据 清洗到强化学习的全流程细节,从预训练到 DeepSeek 同款强化学习,成为目前透明度最高的开源 LLM 之一。 2. 高性能低成本:小模型的大能量 零样本任务:在 ARC-C(AI2推理挑战)上达到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。 数学推理:经过 RL 微调后,在 MATH-500 上准确率 68%,超越 70B 参数的Llama-3-Instruct 模型(64.6%)。 长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理 32K ...
Ruby on Rails 之父 DHH 预言:未来“写代码”会变成不合时宜的念头!
AI科技大本营· 2025-05-14 09:31
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 和 AI 聊聊天,程序就写好了。这就是 2025 年爆火的 "Vibe Coding"(氛围编程),这一概念是由前 OpenAI 研究员 Andrej Karpathy 提出,他直 接在社交平台 X 上展示了自己即使完全不会 Swift,也能靠 AI 在一小时内搓出个 iOS 应用的例子。 「氛围编程」从概念到「印钞机」 在 AIGC 大行其道的当下,AI 辅助编程已蔚然成风。其中,备受开发者青睐的 AI 编码神器 Cursor 正迅速成为 VS Code 的有力竞争者。就在昨天,腾 讯也强势入局,推出了其 AI 编程助手 CodeBuddy——不仅搭载全新 Agent 智能体,更是中国首个支持 MCP (Model Context Protocol) 的代码助 手,并全面增强了产品能力。 与此同时,也有不少开发者晒出自己利用 Vide Coding 的变现路径。 X 用户 @mikestrives 就在平台上分享了自己的惊喜收获: "我做到了! 用氛围编程在 30 天内打造一个 AI 产品,实现了 $7,000 月收入(MRR)!全程只用 ...
那位曾高喊「AI能接管一切」的CEO后悔了:宣布重启人工招聘!
AI科技大本营· 2025-05-13 12:03
整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 你还记得那个用"AI 克隆体"代替自己发布财报的 CEO 吗?对,就是那个说"AI 能取代所有人类工作,甚至我自己"的 Klarna CEO,Sebastian Siemiatkowski。 就在今年 1 月,这位 AI 信徒在社交媒体上认真地告诉大家:理论上来说,AI 已经具备取代所有工作的能力,最终人类工作者将"难逃下岗",包括他自 己也不例外。 可就在大家纷纷感叹人类"职业危机"到来之时,现在 Klarna 却悄悄"打脸"了自己 : 据多家外媒报道, 最近 Klarna 重新开启了人工招聘,结束了为期 一年多的"招聘冻结令"——这不禁让人好奇:不是说好了 AI 会接管一切,为什么又重新开始招人了? AI 真的能做所有工作? 先把时间线拉回 到 2024 年 9 月。 Klarna,这家以"先买后付"(Buy Now, Pay Later)模式闻名的金融科技公司, 当时被曝正 准备实施大规模裁 员:计划削减近 2000 个工作岗位。 对此 Klarna 表示,公司早在一年前就已全面冻结招聘,以"自然减员"的方式减少组织规模。据悉一年时间内, ...
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 10:25
【编者按】如今生成式 AI 逐渐融入软件开发流程,越来越多 AI 生成的代码出现在实际工程中——但你有没有想过,这些由 AI 写出来的代码,从一开始 就可能被视为"遗留代码"?本文作者从工程经验出发,结合 AI 的生成机制,提出一个颇具启发性的观点: AI 生成的代码缺乏上下文记忆和维护连续性, 因此一 诞生就处于"他人旧作"的状态 。 这 不仅是对当前 AI 编码能力的冷静观察,也为我们理解未来软件开发形态提供了一种新视角。 原文链接: https://text-incubation.com/AI+code+is+legacy+code+from+day+one 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在软件开发中,代码的"可改进性"往往取 决于其所处的生命周期阶段。通常可以分为以下几类情况: 总的来看, 代码的演进速度,通常取决于离它的编写时间有多近、维护者是不是原作者。 其实 , 这种状态是合理的:对于一个运行稳定、经过验证的软件系统而言,贸然进行"改进"往往带来额外风险,尤其是当你对系统的整体脉络不甚了 解时,原作者通常才最清楚其潜在逻辑和 开发 背景。 AI 生成的代码 , ...
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 09:35
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在多模态视频生成技术逐渐成熟的今天,定制化能力成为衡量系统实用性的重要标准。 5 月 8 日,腾讯混元团队正式推出并开源全新的多模态定制化视频生成框架 HunyuanCustom。该工具基于混元视频生成大模型(HunyuanVideo) 打造,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力。 此外,为实现可控与一致性的统一,HunyuanCustom 在系统架构上设计了多个关键模块: 上述模块使 HunyuanCustom 可在训练与推理阶段均实现图像、语音、视频等模态的解耦控制,为多模态生成提供了灵活接口。 多模态输入 + 主体一致性 解决定制视频「变脸难题」 传统图生视频或文生视频模型虽可合成视觉内容,但通常难以在更换动作、背景、服饰等条件下,保持人物身份不变——比如人物"变脸"、物体"漂 移"等问题较为常见。HunyuanCustom 的核心目标正是解决这一挑战。 HunyuanCustom 引入了基于 LLaVA 的图文融合模块,结合时间级联的图像 ID 增强机制,使视频在全程保持"主体一致"。在此基础 ...
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 09:35
ZeroSearch 不是让搜索消失,而是让搜索真正"融入"智能本身。 整理| 梦依丹 ZeroSearch 的思路是 先用轻量级的监督微调,将大模型转化为一个能根据查询生成"相关"与"干扰"文档的检索模块;再通过"逐步降低文档质量"的课 程式训练策略,挑战模型的推理和检索能力,从而实现更稳健的搜索学习路径。 不依赖搜索引擎的 PPO 和 GRPO 训练演示 其做法是: 出品丨AI 科技大本营(ID:rgznai100) 仅需 70.8 美元,在 4 块 A100 GPU 上运行 140亿参数模型,你就能获得媲美甚至超越谷歌搜索的强大 AI 搜索能力! 近日,阿里巴巴通义团队开源了一套全新的解决方案——ZeroSearch,这是一款由大模型驱动的生成式搜索引擎框架,训练过程无需调用任何外部搜索 接口,完全"自给自足",实现了低成本,高性能的检索能力构建。 传统搜索引擎的调用,往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题, ZeroSearch 引入了一种全新的强化学习框架——在不与 真实搜索引擎交互的前提下训练出"搜索能力" 。 优化目标如下: 其中, 是待优化的策略模型, 是参考模型, ...
AI不靠“闭门造神”,海内外一线专家共探智能新纪元,GOSIM AI Paris 2025圆满收官!
AI科技大本营· 2025-05-08 00:23
5 月 7 日,由 GOSIM、CSDN 和 1ms.ai 联合主办的全球开源技术盛会——GOSIM AI Paris 2025 在法国巴黎迎来了大会第二日的精彩议程。 延续首日的热烈氛围 , 来自全球的 AI 专家、开发者和 产业代表齐聚一堂,围绕 AI 技术的最新趋势与实践展开深入探讨。 从底层技术架构到前沿应用场景,本次大会围绕 AI 模型、AI 基础设施、AI 应用及具身智能等核心 主题设立技术论坛,全方位覆盖 AI 领域的关键议题。此外,Spotlight Talks、PyTorch Day 等特色 活动也为技术开发者搭建了一个思想碰撞与成果展示的技术舞台。 多模态统一架构。尽管"统一架构"仍有不少技术争议,但多个顶级实验室的研究已显示出明显趋 势,即试图将多模态建模能力整合进统一框架。他特别提到 Meta 于去年年底发布的 BLT(Byte Latent Transformer)架构,展示了这一方向的可行性。Zhipeng Huang 认为,2025 年有望 诞生具突破性的统一模型,对现有主流架构发起挑战。 高效注意力机制演进。线性注意力、动态稀疏注意力和混合注意力等机制正快速发展。 二阶优化走向 ...