Workflow
合成数据
icon
Search documents
ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
机器之心· 2025-07-11 09:22
张剑清是一名上海交通大学在读博士生,获中国人工智能学会「青托 」 、吴文俊人工智能荣誉博士及国家奖学金。在代码大模型、 合成数据集进化生成、联邦学习与推荐系统方向取得系列成果,主要关注其中的垂域自适应、模型融合、模型个性化主题,于 JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等发表9篇CCF-A一作论文,主导并开源了PFLlib、HtFLlib、EvolveGen 等项目,曾在字节跳动、清华AIR、KAUST、腾讯等机构实习交流。 数据短缺问题随着大模型的高速发展,日益加剧。已经有不少 Nature 论文指出,预计到 2028 年,公共数据的产生速度将因 赶不上大模型训练的消耗速度而被耗尽。而在某些特殊领域,比如医疗、工业制造等,原本可用数据就非常少,数据短缺的问 题更严重。 为了解决这一困境,我们提出了合成数据自主进化框架 PCEvolve:只需提供少量标注样本,就可在保护隐私同时进化出一整 个数据集。PCEvolve 的进化过程类似 DeepMind 提出的 FunSearch 和 AlphaEvolve。 现有大模型 API 并不能拿来直接合成垂域数据 然而,当应用到垂直领域 ...
银河通用创始人王鹤勾勒人形机器人产业新图景,合成数据破局具身智能落地
Xin Lang Zheng Quan· 2025-06-28 09:03
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 文/新浪财经上海站 陈秀颖 6月28日于上海智能工业中心开幕的"具赋新能 智驱未来"青年科学家成果转化暨具身智能高质量发展研 修会上,百余位全球青年科学家与逾130位上市公司企业家云集。 北京大学助理教授、银河通用机器人创始人及CTO、智源学者王鹤的演讲——合成数据赋能的具身大 模型开启工商业场景规模化落地。 2023年5月,银河通用成立之初,便迅速拿下种子轮融资。此后,头部机构持续加入,旗下几乎汇聚了 各类型顶级投资机构,由此走到聚光灯下。 具身智能,作为让机器人具备理解物理世界并与之交互能力的尖端领域,近年来风头正劲。尤其在多模 态大模型加持下,"端到端"的技术路线被普遍视为通向"通用"的曙光。 王鹤在演讲伊始,便将具身智能与已取得长足进步的自动驾驶领域进行了量体裁衣的对比。他指出,自 动驾驶历经十年发展,其辅助驾驶功能如今能在国内城市普及,核心驱动力正是端到端模型。相比之 下,具身智能的任务范畴更广、所需数据量级更大、技术复杂度更高,但"端到端"之路依然值得坚持, 否则规则驱动的旧范式将在可扩展性上举步维艰。 然而,最大痛点旋即浮 ...
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 09:41
EI/中文核心/毕业论文/申博等 点击下方 卡片 ,关注" 具身智能 之心 "公众号 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深导师团 队在线 "救援",一站式解决你的论文烦恼! 【前沿论文辅导重磅上线!多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会 方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 你是否正在研究以下前沿领域却苦于突破瓶颈? 多模态大模型(视觉-语言预训练、跨模态推理) 视觉语言动作(VLA)(端到端、分层等) 视觉语言导航(VLN)(Embodied QA、指令跟随、场景理解) 机器人抓取与导航(Sim2Real、强化学习、3D场景建模) 具身智能体泛化(跨任务迁移、零样本适应、仿真环境构建) 3D高斯泼溅(3DGS)(实时渲染、动态场景建模、SLAM结合) 端到端具身智能体(决策闭环、多模态传感器融合) 具身合成数据生成(自动标注、域适应、数据增强) 为什么选择我们? ✅ 顶会/顶刊导师团队:来自CMU、Stanford、MIT等名校的PhD及大厂研究员,覆盖ICRA、NeurIPS、C ...
这波AI淘金热里,卖“铲子”的公司正闷声发财,“征服"了几十家国内外巨头!
AI前线· 2025-06-27 04:58
作者 | 华卫 "选择合成数据赛道的底层逻辑其实很简单,AI 的快速爆发带来了数据需求,这个 Gap 要靠合成数据 去填。" 光轮智能联合创始人兼总裁杨海波表示,在大语言模型领域不存在外部合成数据的发展机会,因为其 自身就具备强大的数据生成能力,能够利用自身模型结合专家标注自我服务。然而,随着人工智能向 物理世界拓展,给外部公司带来了供应合成数据的商机。 光轮智能正在做的事就是,提供帮助 AI 进入物理世界的 3D 合成数据。具体来说,光轮智能为具身 智能行业提供拥有足够真实的物理交互能力的、人类示范在环的、场景足够丰富的仿真合成数据。 现在,光轮智能几乎服务了所有的国内外头部的具身智能企业和主机厂, 包括英伟达、Figure AI、 DeepMind、Wayve、智元机器人、银河通用、比亚迪、博世等数十家公司。 在这背后,是一支年轻化的技术团队,成员以 90 后、00 后为主力,不仅吸纳了来自英伟达的仿真 专家、阿里最年轻的算法人才,还招募了众多应届生。在创业初期短短几个月内,光轮智能的核心班 底便基本就位,其中不乏因看好行业需求主动加入的成员。 成立几个月就赚钱了 这家成立仅数月的企业,在合成数据尚未成为 ...
模型训练最重要的依然是 Scaling —— 对话阿里通义千问 Qwen 多语言负责人杨宝嵩 | Open AGI Forum
AI科技大本营· 2025-06-25 06:49
Core Viewpoint - The article discusses the rapid rise of large model technology globally, emphasizing Alibaba's Tongyi Qwen model's international success and its strategic focus on multilingual capabilities to cater to a global audience [2][3]. Group 1: Multilingual Strategy - Tongyi Qwen supports 119 languages, with a core strategy prioritizing multilingual data optimization from the outset to ensure equitable access to AI technology for global users [2][3]. - The team has developed a complex cultural annotation system to address the challenges of multilingual safety and cultural alignment, covering thousands of detailed categories to ensure compliance and effectiveness across different regions [3][12]. - The current industry faces a "multilingual reasoning challenge," where models often mix languages during processing, leading to inconsistencies. The team has adopted a compromise strategy to use native languages for strong languages and English for low-resource languages to maintain output stability [3][16]. Group 2: Scaling Law and Knowledge Density - The article highlights the importance of scaling model size and data volume while also focusing on increasing "knowledge density," which refers to the concentration of useful knowledge within the training data [19][20]. - Recent trends show that smaller models with higher knowledge density can outperform larger models, indicating a shift in focus from merely increasing data volume to refining data quality [20][21]. - The team is exploring data synthesis methods to enhance training data quality, which includes generating new knowledge and filtering redundant data to improve knowledge density [22][23]. Group 3: AI Integration and Future Prospects - The integration of AI models into various devices, such as smart glasses and earphones, is a growing trend, with the company planning to release smaller model versions optimized for these applications [28][30]. - The article discusses the potential for AI to enhance user experiences in everyday tasks, such as real-time translation and contextual assistance, although challenges remain in achieving seamless integration [30][32]. - The company acknowledges the importance of balancing the use of synthetic data with human-generated content to maintain diversity and avoid narrowing the model's knowledge base [25][26].
具身机器人赛道融资多热?宁德时代领投11亿创纪录|热财经
Sou Hu Cai Jing· 2025-06-24 12:26
近日,成立仅2年的北京银河通用机器人有限公司(以下简称"银河通用")宣布正式完成由宁德时代及溥泉资本领投的11亿元新一轮融资,叠 加2023年6月获得的种子轮融资、2024年6月获得的7亿元天使轮融资、2024年11月获得的5亿元战略轮融资,累计融资超24亿元。 今年将开百家机器人零售店 "I saw Galbot, that's really cool."这是今年年初英伟达北京晚宴上黄仁勋跟王鹤见面的第一句话。 去年6月,身高173cm、体重85kg的首代具身大模型机器人Galbot (G1)正式发布,它的躯体采用双臂、折叠、轮式底盘的结构,这也是银河 通用成立一年后发布的首款产品。不久之后的世界机器人大会上,Galbot就在现场展示了清理桌面、货架取货、货架补货、抱箱子的真机演 示,也是在为应用场景的落地进行铺垫。 合成数据是银河通用及其机器人Galbot快速进化的技术关键。今年5月,王鹤入选《麻省理工科技评论》"35岁以下科技创新35人"中国区榜 单,入选理由强调王鹤用合成数据开发了首个端到端具身抓取基础大模型,突破数据和泛化瓶颈,有望促进通用具身机器人走向规模商业化。 "互联网上的人类劳动视频虽带有' ...
英伟达(NVDA.US)加持AI制药革命 SandboxAQ合成数据破解药物筛选难题
智通财经网· 2025-06-18 13:46
不同于依赖物理实验获取数据的传统路径,SandboxAQ独创性地将计算化学与人工智能深度融合。该公 司基于英伟达高性能芯片构建的算法平台,通过求解描述原子间作用力的量子力学方程,生成了520万 个尚未在现实世界观测到的三维分子结构。这些"虚拟分子"虽未经实验室合成,但其空间构型与化学性 质均严格遵循物理定律推导,相当于在数字世界搭建了庞大的分子图书馆。 这种创新范式正在重塑药物研发的早期阶段。以肿瘤治疗为例,若研发团队试图阻断某个促进癌细胞增 殖的关键蛋白,传统方法需在实验室合成并测试成千上万种分子,过程可能耗时数年。而借助 SandboxAQ的技术,研究人员可直接在虚拟空间模拟数十亿种分子与靶蛋白的相互作用,将筛选周期压 缩至数周,显著降低新药开发的时间与资金成本。 智通财经APP获悉,由谷歌母公司Alphabet(GOOGL.US)分拆、获英伟达(NVDA.US)战略支持的AI初创 企业SandboxAQ,于当地时间6月18日正式发布大规模合成数据集,旨在通过模拟药物分子与蛋白质的 相互作用机制,加速全球新药研发进程。这家已累计融资近10亿美元的科技新贵,正试图打破传统实验 室研究的时空限制,用算力重构药 ...
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 03:03
辅导老师介绍 老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议上发表论文,有较丰富的 指导经验。 学员要求 自带一份简历,学校背景:国内TOP100高校,国外QS200以内; 具身智能之心论文辅导正式推出啦!去年的成果还算不错,几个同学中了CVPR和ICRA等会议, 今年和老师们沟通过后,准备继续辅导几名同学冲下顶会,感兴趣的同学可以咨询,辅导方向如 下。 主要方向 更多咨询 多模态大模型,VLA、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能 体、3DGS等方向; 详细内容欢迎添加微信:oooops-life,做进一步了解。 ...
热捧与嘲讽交织中 人形机器人公司“顶流”摸索短期出路
Nan Fang Du Shi Bao· 2025-06-09 14:08
宇树科技创始人王兴兴成为今年北京智源大会的"顶流"。6月6日的大会开幕式上,轮到王兴兴发言时,后排观众纷纷起立拍照。等到结束散场,王兴 兴在数名安保人员护送下离场,免于去年"顶流"月之暗面创始人杨植麟被观众层层围困的囧况。 与被公众热捧相伴随的是质疑乃至嘲讽。市场的负面声音,主要针对宇树科技机器人现有能力展示的真实性及其实用价值。这家公司曾一度被调侃 为"CG 动画公司",其人形机器人被唤作"遥控玩具"。 其他人形机器人公司亦未幸免于此。今年春节前后,深圳众擎机器人频频发布"炫技"视频,于是有声音将其与宇树科技一同归入"影视公司"的行列。 该公司创始人赵同阳对此并不忌讳。"我们不会回避外界的质疑,甚至把外界骂得最难听的部分放到公司的屏幕上,让每个工程师看。"他在智源大会 上说,"愤怒产生力量。" 热捧与质疑交织的市场情绪背后,核心指向人形机器人产业推进路线和前景的非共识。非共识包括但不限于:"花拳绣腿"有无意义?落地汽车产线当 下是否是伪命题?具身智能数据短缺"瓶颈"如何缓解?从对这些问题的回答中,亦可窥见人形机器人公司短期内摸索出路的解法。 "花拳绣腿"有无意义? 具身智能模型决定了机器人的智能化水平,但由 ...
未来智造局|“突围”具身智能数据难题
Xin Hua Cai Jing· 2025-06-06 07:18
新华财经上海6月6日电(记者杜康)日前在2025国际人形机器人技能大赛上,记者通过现场观看各类机 器人在全地形动态挑战赛、工业场景赛、家庭场景赛、商业场景赛等五大赛道28个高难度场景中的表 现,发现目前机器人已逐渐摆脱了"被遥控"的状态,在复杂场景中表现出一定的自主性,比如能够自主 寻找物品、归类物品等。 不过,人形机器人在精度、速度、泛化度等维度仍显笨拙。行业人士表示,训练数据的不足,是当下阻 碍机器人进化的一大瓶颈。目前特斯拉、谷歌,以及国内一些机器人企业纷纷设训练场建数据集,但面 临成本高、周期长等问题。合成数据作为另一条技术路线,虽也面临一些限制,不过已有完全基于合成 数据训练的具身智能大模型应用落地。 处于数据"饥渴"中的具身智能 以ChatGPT、Deepseek为代表的大语言模型,其智能的涌现,离不开巨量的文本数据。具身智能模型能 力的提升,同样有赖于大量训练数据的输入。不过,与文本数据相比,具身智能的训练数据十分稀缺, 尤其是多模态数据。"数量上可能有百万倍的差距。"中国工程院外籍院士张建伟说。 训练数据的不足,可以说是当前具身智能"脑部"进化的"阿喀琉斯之踵"。 为了解决训练数据的缺乏,机构 ...