生成模型

Search documents
北京首起利用AI侵犯著作权刑事案件宣判
Zhong Guo Qing Nian Bao· 2025-06-18 02:34
"这些盗图商家认为如果被发现,赔点钱就完事了。"张薇在网络平台上的发帖,引发许多创作者的共 鸣,有人表示自己也有相似经历,"他们这和偷有什么区别?" 6月13日,北京首例利用AI生成模型侵犯著作权的刑事保护案件宣判。北京市通州区人民检察院指控罗 某某、姚某某等4人利用AI软件篡改网络原创作品,制成拼图销售3000余件、牟利27万余元。通州区人 民法院以侵犯著作权罪判处多名被告人有期徒刑1年6个月至缓刑,并处罚金,涉案的福州市某电子商务 有限公司被判处罚金10万元。 "我画的画被人盗用了,还在网上售卖。"2024年5月27日,张薇向警方报案。 办案检察官介绍,本案受案之初遇到许多困难,"AI生成模型属于前沿科技,尚未有刑事判例可以作为 参考,高技术、新手段的犯罪方式是本案显著特点"。由于涉案拼图在网络平台销量较大,她意识到, 其背后或许还有更多被侵权的创作者。 检方提前介入该案,引导警方侦查取证。最终,56张光盘与3个移动硬盘装载的电子数据被送到检察官 手中——其中的数据量如果打印成文字,体量相当于数百万本网络小说。 检方对扣押物证鉴定结果、第三方电商平台投诉记录等电子数据进行深挖梳理,发现除张薇的作品外, 还 ...
腾讯开源最强3D生成模型,消费级显卡就能跑 | CVPR
量子位· 2025-06-13 16:44
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚的CVPR上,鹅厂3D生成模型 混元3D 2.1 正式宣布开源! 它可以紧跟潮流,细腻地呈现出当红炸子鸡Labubu。 主打几何与纹理双优化 如开头所述,混元3D 2.1主打的是 几何与纹理的双重优化 。 几何决定了建立出的模型在形状上的精度,纹理则还原模型表面的颜色、光泽和细节表现。 也可以走复古路线,生成纹理精致的青铜器。 总之相比于前一代2.0,混元3D 2.1主打的是 几何与纹理 的双重优化。 特别在纹理贴面上有比较大的优化,可达到当前开源3D模型中的SOTA。 比如这个金属质地的葡萄型摆件,2.1和之前2.0的质感和光泽对比非常明显: 并且混元3D 2.1的 训练代码、模型权重、数据处理流程全部开源 ,支持一键部署,开发者还可以自主精调。 据腾讯介绍,这是首个全链路开源的工业级3D生成大模型,并且达到了闭源级水平,同时还 可适配消费级显卡 。 混元3D 2.1 可生成基础颜色、金属度、粗糙度等指标各不相同的贴图,同时还支持皮革、木质、金属、陶瓷等多种复杂材质的高质量渲染。 比如这组青花瓷制成的小船,可以看到右侧2.1版本生成的结果光泽更 ...
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 09:57
在建模复杂的数据分布方面,扩散生成模型表现出色,不过它的成果大体上与表征学习(representation learning)领域关联不大。 机器之心报道 编辑:Panda 通常来说,扩散模型的训练目标包含一个专注于重构(例如去噪)的回归项,但缺乏为生成学习到的表征的显式正则化项。这种图像生成范式与图像识别范式差 异明显 —— 过去十年来,图像识别领域的核心主题和驱动力一直是表征学习。 在表征学习领域,自监督学习常被用于学习适用于各种下游任务的通用表征。在这些方法中,对比学习提供了一个概念简单但有效的框架,可从样本对中学习表 征。 直观地讲,这些方法会鼓励相似的样本对(正例对)之间相互吸引,而相异的样本对(负例对)之间相互排斥。研究已经证明,通过对比学习进行表征学习,可 以有效地解决多种识别任务,包括分类、检测和分割。然而,还没有人探索过这些学习范式在生成模型中的有效性。 鉴于表征学习在生成模型中的潜力,谢赛宁团队提出了 表征对齐 (REPA) 。该方法可以利用预训练得到的现成表征模型的能力。在训练生成模型的同时,该方法 会鼓励其内部表征与外部预训练表征之间对齐。有关 REPA 的更多介绍可阅读我们之前的报道 ...
豆包视频生成模型Seedance 1.0 pro正式发布 实时语音模型同步全量上线
news flash· 2025-06-11 05:29
今日,在"2025火山引擎春季FORCE原动力大会"上,豆包视频生成模型Seedance1.0pro正式发布。火山 引擎总裁谭待表示,Seedance1.0pro可以做到无缝多镜头叙事、多动作及随心运镜,并且稳定运动并保 持真实美感。而Seedance1.0pro的价格为0.015元/千tokens(语言生成模型在运作时的最小工作单元)。此 外,会上谭待还宣布豆包实时语音模型全量上线,正式发布了语音博客模型。(每日经济新闻) ...
字节跳动推出视频模型Seedance 1.0 pro
news flash· 2025-06-11 03:41
字节跳动推出视频模型Seedance 1.0 pro 金十数据6月11日讯,字节跳动旗下火山引擎举办FORCE原动力大会,在会上,火山引擎发布了视频生 成模型Seedance 1.0 pro。 ...
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 05:38
编译|冬梅、核子可乐 Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚 刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还 允许用户添加文本及其他图像以实现内容修改。 该公司在 X 上发文称:"今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生 成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于 上下文的生成和编辑能力。" BFL 公司联合创始人兼 CEO Robin Rombach 表示:"FLUX.1 Kontext 通过将图像生成和编辑统一在 一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练, 我们实现了跨 多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度 。这实现了真 正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。" 该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BF ...
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
机器之心· 2025-05-11 03:20
本文一作为肖泽琪, 本科毕业于浙江大学,现为南洋理工大学博士生, 研究方向是基于视频生成模型的世界生成和模拟,导师为潘新钢。个人主页: https://xizaoqu.github.io 近年来,基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展,但由于上下文时间窗口受限,生成的世 界在长时序下严重缺乏一致性。 针对这一问题,南洋理工大学 S-Lab、北京大学与上海 AI Lab 的研究者提出了创新性的世界生成模型—— W orldM em ,通过引入记忆机制,实现了长时序一致 的世界生成。 WorldMem 在 Minecraft 数据集上进行了大规模训练,支持在多样化场景中自由探索和动态变化,并在真实数据集上验证了方法的可行性。 研究背景 世界生成模型在近期受到了广泛关注,如谷歌的 Genie 2 [1]、阿里的 The Matrix [2]、Meta 的 Navigation World Models [4] 等。这些方法在生成质量与交互性方面取 得了显著进展,但长时一致性问题仍未得到有效解决。 举例:当我们控制视角先向右转,再向左转。 在传统方法中,回看时 ...
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 04:11
机器之心发布 机器之心编辑部 随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域, 经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获 第一。 视频细粒度文本描述 视频细粒度文本描述模型(video detailed caption)为视频生成模型提供标签,是视频生成的基础。复旦大学等机构提出了 Cockatiel 方法 [3],该方法在权威的 VDC(Video Detailed Captioning 视频细粒度文本描述评测集)榜单上获得第一名,超过了包括通义千问 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在内的 多个主流视频理解多模态大模型。 论文标题:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption ...
智谱与生数科技达成战略合作
news flash· 2025-04-27 06:10
4月27日,智谱与生数科技宣布达成战略合作,将基于各自在大语言模型和多模态生成模型的技术积累 和优势,在联合研发、产品联动、解决方案整合、行业协同等多方面展开合作。根据战略协议,在产品 合作方面,智谱MaaS平台将接入生数科技Vidu API。 ...
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 03:51
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 开源模型,还是得看杭州。 前脚发完QwQ-Max,阿里就在深夜开源了视频生成模型 Wan 2.1 ,14B参数直接 屠榜VBench ,什么Sora、Gen-3通通不是它的对手。 从官方Demo中看,复杂运动细节非常到位, 5个人一起跳hip-hop也能做到动作同步 。 而且在静态图像生成中都还是老大难问题的 文字 ,现在也被万相给攻克了。 当然了,14B的参数量说大不大,但在个人消费级显卡上本地部署还是比较吃力的。 不过14B (支持分辨率720P) 之外,还有一个1.3B的小号版本 (支持分辨率480P) ,在一块 4090上占用显存是8个多GB ,消耗时间4 分21秒。 如此观之,用12GB的 4070,也是能带动的 。 | | | | Computational Efficiency of Wan2.1 | | | | | --- | --- | --- | --- | --- | --- | --- | | | | | (time(s)/ peak memory(G)) | | | | | GPU | Model | Resolution | ...