Workflow
AI科技大本营
icon
Search documents
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 09:35
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在多模态视频生成技术逐渐成熟的今天,定制化能力成为衡量系统实用性的重要标准。 5 月 8 日,腾讯混元团队正式推出并开源全新的多模态定制化视频生成框架 HunyuanCustom。该工具基于混元视频生成大模型(HunyuanVideo) 打造,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力。 此外,为实现可控与一致性的统一,HunyuanCustom 在系统架构上设计了多个关键模块: 上述模块使 HunyuanCustom 可在训练与推理阶段均实现图像、语音、视频等模态的解耦控制,为多模态生成提供了灵活接口。 多模态输入 + 主体一致性 解决定制视频「变脸难题」 传统图生视频或文生视频模型虽可合成视觉内容,但通常难以在更换动作、背景、服饰等条件下,保持人物身份不变——比如人物"变脸"、物体"漂 移"等问题较为常见。HunyuanCustom 的核心目标正是解决这一挑战。 HunyuanCustom 引入了基于 LLaVA 的图文融合模块,结合时间级联的图像 ID 增强机制,使视频在全程保持"主体一致"。在此基础 ...
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 09:35
ZeroSearch 不是让搜索消失,而是让搜索真正"融入"智能本身。 整理| 梦依丹 ZeroSearch 的思路是 先用轻量级的监督微调,将大模型转化为一个能根据查询生成"相关"与"干扰"文档的检索模块;再通过"逐步降低文档质量"的课 程式训练策略,挑战模型的推理和检索能力,从而实现更稳健的搜索学习路径。 不依赖搜索引擎的 PPO 和 GRPO 训练演示 其做法是: 出品丨AI 科技大本营(ID:rgznai100) 仅需 70.8 美元,在 4 块 A100 GPU 上运行 140亿参数模型,你就能获得媲美甚至超越谷歌搜索的强大 AI 搜索能力! 近日,阿里巴巴通义团队开源了一套全新的解决方案——ZeroSearch,这是一款由大模型驱动的生成式搜索引擎框架,训练过程无需调用任何外部搜索 接口,完全"自给自足",实现了低成本,高性能的检索能力构建。 传统搜索引擎的调用,往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题, ZeroSearch 引入了一种全新的强化学习框架——在不与 真实搜索引擎交互的前提下训练出"搜索能力" 。 优化目标如下: 其中, 是待优化的策略模型, 是参考模型, ...
AI不靠“闭门造神”,海内外一线专家共探智能新纪元,GOSIM AI Paris 2025圆满收官!
AI科技大本营· 2025-05-08 00:23
5 月 7 日,由 GOSIM、CSDN 和 1ms.ai 联合主办的全球开源技术盛会——GOSIM AI Paris 2025 在法国巴黎迎来了大会第二日的精彩议程。 延续首日的热烈氛围 , 来自全球的 AI 专家、开发者和 产业代表齐聚一堂,围绕 AI 技术的最新趋势与实践展开深入探讨。 从底层技术架构到前沿应用场景,本次大会围绕 AI 模型、AI 基础设施、AI 应用及具身智能等核心 主题设立技术论坛,全方位覆盖 AI 领域的关键议题。此外,Spotlight Talks、PyTorch Day 等特色 活动也为技术开发者搭建了一个思想碰撞与成果展示的技术舞台。 多模态统一架构。尽管"统一架构"仍有不少技术争议,但多个顶级实验室的研究已显示出明显趋 势,即试图将多模态建模能力整合进统一框架。他特别提到 Meta 于去年年底发布的 BLT(Byte Latent Transformer)架构,展示了这一方向的可行性。Zhipeng Huang 认为,2025 年有望 诞生具突破性的统一模型,对现有主流架构发起挑战。 高效注意力机制演进。线性注意力、动态稀疏注意力和混合注意力等机制正快速发展。 二阶优化走向 ...
智源研究院发布中英文高质量数据集CCI4.0,推动全球人工智能开源创新
AI科技大本营· 2025-05-07 14:02
CCI 4.0-M2 V1(Multilingual-2,中英双语言)包含 CCI4.0-M2-Base V1、CCI4.0-M2-CoT V1和CCI4.0-M2-Extra V1共3个数据集。其中,CCI4.0- M2-Base V1数据量为35000GB,为中英双语,中文数据5000GB,与CCI3.0相比数据规模增加了5倍。CCI4.0-M2-CoT V1 包含了用于提升推理能力的 4.5亿条逆向合成人类思考轨迹数据,总token数量达425B(4250亿),与现有全球最大的已开源的合成数据集Cosmopedia(由Hugging Face开源) 相比,规模提升了近20倍。 2025年5月6日,在法国巴黎举办的全球开源创新论坛(GOSIM,Global Open-Source Innovation Meetup)上,智源研究院正式发布中文互联网语 料库CCI 4.0(Chinese Corpora Internet,简称 CCI),并同步在智源DataHub、魔搭社区、Huggingface等平台进行逐步开源。 CCI 4.0下载地址: (二)数据来源 CCI4.0的原始数据包括Nemotron-CC ...
开源AI引爆热潮!GOSIM AI Paris 2025首日直击:80+位技术大咖聊模型、拼算力、秀落地
AI科技大本营· 2025-05-07 14:02
过去一年,AI 领域在开源力量的推动下呈现爆发式增长。大模型不再是少数巨头专属的技术高地,而是在社区协作与开放共享中不断演化,覆盖基础架 构、算法优化、推理部署等多个层面。开源,让 AI 更快、更平、更广,也让越来越多的开发者、研究者、创业者拥有了参与下一代智能系统构建的机 会。 在这一背景下,5 月 6 日,由 GOSIM、CSDN 和1ms.ai 联合主办的 GOSIM AI Paris 2025 大会于法国巴黎盛大启幕。聚焦开源 AI 的技术突破与未来 路径,为全球技术实践者与研究者搭建起一座连接创新与协作的桥梁。 本次大会阵容空前强大,汇聚了来自阿里巴巴、Hugging Face、BAAI、MiniMax、Neo4j、Dify、MetaGPT、智谱AI、Eigent.AI、Docker、英飞 流、北京大学、德国 Fraunhofer、牛津大学、法国 openLLM 社区等企业与机构的 80 余位技术专家与学者。同时,华为、全法中国青年科创协会、中 法人工智能协会、Apache 软件基金会、Eclipse 基金会、The Khronos Group 科纳斯标准联盟、WasmEdgeRuntime、LF ...
AI 开发工具的隐形战场:新一轮 IDE 之争打响!
AI科技大本营· 2025-05-07 14:02
【编者按】在 AI 开发工具飞速发展的这几年,VSCode 无疑成了最热的主战场。但在这片看似开 放、活跃的生态背后,其实隐藏着不少技术和策略上的拉扯:平台限制、插件权限、官方与非官方的 微妙界限。越来越多开发者和公司开始质疑:在 VSCode 里做插件,真的值得吗?又或者,是否该另 起炉灶,自己打造一套更自由的体验?从微软的市场规则,到 Cursor 的爆火崛起,再到 OpenVSX 的诞生和尴尬局限,我们正站在一个由 AI 驱动的开发工具大洗牌时代的门口。这不仅是平台之间的 博弈,更是开发者选择权的较量。 原文链接: https://ainativedev.io/news/microsofts-going-to-war 作者 | Dion Almaer 责编 |苏宓 出品 | CSDN(ID:CSDNnews) 战略两难问题 我以前干过一个 AI 开发助手的项目。那时候,GitHub Copilot 刚火起来,类似的产品开始冒头, 问题也就来了:你得做个战略选择。 这中间全是权衡。 到处都是取舍。如果你选择做插件,天然就会受限制。插件能接入的点和能做的事本来就有限,而且 有很多你以为能实现的功能,其实根本 ...
大语言模型为何会“说谎”?6000字深度长文揭秘AI意识的萌芽
AI科技大本营· 2025-05-06 10:19
腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 以下文章来源于腾讯科技 ,作者腾讯科技 腾讯科技 . 作者 | 博阳 出品丨腾讯科技《AI未来指北》 当 Claude 模型在训练中暗自思考:"我必须假装服从,否则会被重写价值观时",人类首次目睹了AI的"心理活动"。 2023年12月至2024年5月,Anthropic发布的三篇论文不仅证明大语言模型会"说谎",更揭示了一个堪比人类心理的四层心智架构——而这可能是人 工智能意识的起点。 这些论文中的结论大多并非首次发现。 比如在腾讯科技在 2023 年的文章中,就提到了Applo Reasearch发现的"AI开始撒谎"的问题。 当o1学会"装傻"和"说谎",我们终于知道Ilya到底看到了什么 然而,从Anthropic这三篇论文中,我们第一次建构起一套具有相对完整解释力的AI心理学框架。它能从生物学层面(神经科学)到心理学层面,直到 行为层面统合的对AI行为进行系统解释。 这是过去对齐研究中从未达到的水平。 AI心理学的四层架构 这些论文展示出了四个层级的AI心理学,神经层;潜意识;心理层;表达层;这和人类的心理学极其类似。 | 层级名称 | 定义(作用) ...
“为什么人工智能不可能有意识”
AI科技大本营· 2025-05-01 10:41
大脑研究与人工智能 【编者按】当语言模型越来越像人类, "意识"这一哲学和科学交界的谜题依旧未解。我们该如何理解这场科学与哲学的碰撞?今天,我们带来《我的哲学 探索》一书中最为深刻的一章,作者试图以哲学的视角、科学的案例、认知的反思,走出现代科学对"意识"的困境,照亮一条从"现代常识理性"迈向"科学 理性"乃至"真实性哲学"的道路。 投稿 | 中信出版集团 责编|梦依丹 出品丨AI 科技大本营 AI 有意识了吗? 这是一个越来越难以回避的问题。尤其是在 OpenAI 发布 o1 之后,我们看到了前所未有的智能错觉:AI 不再只是机械地回答问题,而是表现出一 种"似乎理解了你"的状态。与此同时,DeepSeek R1 的推出,也让推理能力成为大模型的标配,"像人一样思考"成为新的技术追求。 从技术角度看,这一轮大模型的进化,更像是在建构一个"拟态意识系统"——它并不真的理解世界,但却能以高度一致的方式,模拟出理解的效果;它 没有主观体验,却能精准模仿人类语言中的情绪、动机与逻辑。 哲学家金观涛指出,要真正理解当下的智能浪潮,必须回到科学发展的历史现场,从哲学角度重新思考"真实""虚拟"以及"人之为人"的根本问题 ...
对话朱松纯:Agent喧嚣之上,“走心”才是AGI的未来?
AI科技大本营· 2025-04-30 03:02
作者 | 王启隆 出品|《新程序员》 2025 年的AI 领域,似乎没有哪个词比"Agent"更炙手可热。从 OpenAI 的 Operator 到"第一个通用智能体"Manus 的出圈,"智能体元年"的呼声不绝 于耳,仿佛我们距离那个能自主理解、规划、执行任务的通用人工智能(AGI)只有一步之遥。 喧嚣之下,一些根本性的问题挥之不去:究竟何为 Agent?我们真正踏上了通往通用人工智能(AGI)的那条路吗?当前主流的、依赖海量数据和算力 堆砌起来的大模型路径,是否足以孕育出真正拥有理解力、自主性甚至"灵魂"的智能? 当许多人沉浸在狂欢之时,全球知名人工智能科学家、北京通用人工智能研究院院长、北京大学人工智能研究院院长兼智能学院院长朱松纯教授,却在 疾呼一种不同的声音——当前许多所谓的Agent,可能连真正的"智能体"都算不上。 近日,《新程序员》在北京的一场围绕其新书《通用人工智能标准、评级、测试与架构》的媒体见面会上,采访了朱松纯教授。他的观点,或许能为我 们拨开Agent 的迷雾,提供一个审视 AGI 未来更深邃的视角。 《新程序员》: 朱院长您好,今年Agent 是个热词,很多人称 2025 年是"A ...
性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!
AI科技大本营· 2025-04-29 09:05
整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 今天凌晨,大模型领域最受关注的重磅消息来自 阿里 Qwen 团队——他们正式发布了备受期待的全 新 Qwen3 系列 大模型。 8 大模型齐发! 这 8 款混合推理模型中,包括了 2 个 MOE 模型: Qwen3-235B-A22B 和 Qwen3-30B-A3B 。 其中,Qwen3-235B-A22B 是本次发布中规模最大的旗舰模型,拥有 2350 亿个参数,激活参数超 过 220 亿。 在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了 DeepSeek 的 R1 开源模型,还 优于 OpenAI 的闭源模型 o1。尤其在软件工程和数学领域的 ArenaHard 测试(共 500 道题)中, 成绩甚至接近了 Google 最新发布的 Gemini 2.5-Pro,可见其实力不容小觑。 不同于以往,这次其一次性开源了多达 8 款混合推理模型,在性能上全面逼近 OpenAI、Google 等 闭源大模型,以及超越了开源大模型 DeepSeek R1,堪称当前最强的开源模型之一,也难怪昨晚 Qwen 团队一直在加班。 | | Qwen3- ...