Workflow
图像生成
icon
Search documents
腾讯混元上新:话没说完,图就生成了……
Guan Cha Zhe Wang· 2025-05-16 09:57
(文/万肇生 编辑/张广凯) 5月16日,腾讯发布最新混元图像2.0模型,该模型号称改变传统"抽卡—等待—抽卡"的方式,在行业内率先实现实时生图,带来交互体验革新。 目前市面上的各类大模型中,除了非推理语言大模型的生成外,几乎所有模态大模型的生成过程,都或多或少需要经历等待。尤其在文生图领域,抽卡一 样重复生成多个结果,严重影响效率。然而据腾讯介绍,该混元图像2.0就主打一个"快",支持文生图和绘画生图。且无论是输入文字指令、语音指令, 或上传本地图、在线绘制图,"都能毫秒级获得高质感图像"。 根据演示案例显示,用户在输入"一位女士"时,模型首先生成了一张证件照。此时在输入框内继续输入"…风景照、沙漠中",画面的背景于是瞬间变成翠 绿色,紧接着又秒变成沙漠黄。继续再输入"扎着头发、回眸一笑",画面也飞速切换,最终随着输入操作的结束,画面直接生成完毕。 本文系观察者网独家稿件,未经授权,不得转载。 在另一个生成"爱因斯坦在东方明珠前自拍"的案例中,该模型也非常迅速的展现出整个生成的过程。 通常情况下,绘画过程中的即时反馈可以让用户对作品迅速做出调整,但AI图像生成的修改往往是反复投喂产出。因此,如果在生成的过程 ...
腾讯混元图像2.0:毫秒级AI生图,实时绘画板引领创作新潮流
Sou Hu Cai Jing· 2025-05-16 09:15
近日,腾讯正式推出了其最新的图像生成技术——混元图像2.0模型(Hunyuan Image 2.0),这一技术革新在行业内引起了广泛关注。混元图 像2.0不仅实现了实时图像生成,还以其超写实的画面质感脱颖而出,为用户带来了前所未有的体验。 ▲动物特写 现在,用户可以通过访问腾讯混元官方网站(https://hunyuan.tencent.com/)注册并体验这一前沿技术。相较于前代模型,混元图像2.0的参数量 实现了显著提升,这得益于其采用的超高压缩倍率的图像编解码器以及全新的扩散架构,使得图像生成速度远超行业平均水平。 具体而言,在同类商业产品中,每张图像的推理速度通常需要5到10秒,而腾讯混元图像2.0则能在毫秒级时间内完成响应。这意味着用户可以 在打字或说话的同时,即时看到生成的图像,彻底颠覆了传统图像生成中"等待-生成"的单一模式。 除了速度上的优势,混元图像2.0在图像生成质量上也取得了显著进步。通过强化学习等先进算法,并结合大量人类美学知识,生成的图像不 仅真实感强、细节丰富,而且有效避免了AIGC图像中常见的"AI味",使得图像更具可用性和艺术价值。 在图像生成领域的专业评估基准Geneval上 ...
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 08:16
人像摄影风格 动物特写 AI图像生成进入"毫秒级"时代。 5月16日,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),基于模型架构创新,在行业内率先实现实时生图,在画面质感超写实的基础上, 带来全新的AI生图交互体验。模型于即日起在腾讯混元官方网站上线,并对外开放注册体验。 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领 先模型,在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了 传统"抽卡—等待—抽卡"的方式,带来交互体验革新。 除了速度快以外,腾讯混元图像2.0模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图 像中的"AI味" ,真实感强、细节丰富、可用性高。 在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准 GenEval(Geneval Bench)上,腾讯混元图像2.0模型准确率超过95%,远超其他同类模型。 | | | | | | | 文生图客观指 ...
Manus突发上新文生图!告别“抽卡”,Agent+深度思考联合创作
量子位· 2025-05-16 05:36
举个例子,丢给它一张房间照片,让它去宜家官网找家具,生成可视化装修效果。 并且按照演示中的要求,除了画图之外还要在结果当中附上选择的家具链接,结果Manus一通操作都完成了。 拿到照片后,Manus首先根据地板、墙壁等布置分析了房间的风格,形成了一份分析报告。 网友评价,把智能体工作流与图像生成结合到一起,是一个很好的主意。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Manus深夜官宣,现在 支持生成图像 了! 图像生成,先动脑再动手 和一般AI绘图工具的"抽卡"模式不同,Manus 能够理解你画图的目的,规划出生成方案后再"动手" 。 我们不妨看一下,Manus在合成效果图时,具体都做了些什么。 之后,Manus通过搜索找到了宜家官网并在沙盒环境当中进行浏览。 一通浏览之后,Manus筛选出了它认为适合放在房间里的家具,并且生成了文字版的介绍。 最后,Manus合成了最终的效果图并按照要求创建了带有商品链接的页面。 再看看Manus展示的其他案例。 Manus被要求基于对饮料市场流行视觉元素的理解,为一个名为"TeaVive"的茶饮料设计一款饮料瓶,并且要求中还提到推广青少年健康。 可以看到, ...
Manus推出图像生成功能
news flash· 2025-05-16 05:21
《科创板日报》16日讯,Manus宣布推出图像生成功能。据介绍,Manus不仅是生成图像,它了解用户 的意图,规划解决方案,并知道如何有效地使用图像生成和其他工具来完成用户的任务。 Manus推出图像生成功能 ...
刚刚,Manus生图功能强势登场!从设计到搭建网站一站式搞定,1000积分免费薅
机器之心· 2025-05-16 04:39
| 机器之心报道 | | --- | 编辑:陈陈、杜伟 那个曾经一码难求的 Manus 已经可以全面注册了。从此以后,到处求购邀请码的时代一去不复回。 首次注册就送「1000 积分」让你尝尝鲜! 不得不说,Manus 这次真是豪气了一回,大家赶紧去薅羊毛。 就在今天,Manus 又宣布了另一个好消息,推出图像生成功能。 这里要强调一下, Manus 不只是生成图像,它能理解用户意图,规划解决方案,并知道如何有效地调用图像生成工具以及其他工具来完成你的任务 。 既然免费用,我们当然不能错过这个好机会,机器之心立马来了一波体验测试。 Manus 生图功能到底咋样? 输入提示:「我想创建一个名为 CoLe 的瓶装茶饮料品牌,倡导青少年健康的生活方式。请根据你对饮料市场流行视觉风格的理解,设计一个瓶子。」 | 0 Q | Designing a Bottle for CoLe Teen B ... 9 17 ... | မြိ Manus 的电脑 | | --- | --- | --- | | + 新建任务 Ctrl K | | Manus 正在使用编辑器 2 | | | | 正在编辑文件 todo.md | | D ...
美的集团(000333):2025年一季报点评:持续拓展全球推动数智驱动
Dongguan Securities· 2025-04-30 09:04
家电行业 美的集团(000333)2025 年一季报点评 增持(维持) 持续拓展全球 推动数智驱动 公 事件:公司发布了2025年一季报。2025年一季度,公司实现营业总收入 1284.28亿元,同比增长20.61%;实现归母净利润124.22亿元,同比增长 38.02%;实现扣非后归母净利润127.5亿元,同比增长38.03%。公司业绩符 合预期。 评 点评: 本报告的风险等级为中风险。 本报告的信息均来自已公开信息,关于信息的准确性与完整性,建议投资者谨慎判断,据此入市,风险自担。 请务必阅读末页声明。 电话:0769-22119462 | 收盘价(元) | 74.20 | | --- | --- | | 总市值(亿元) | 5,686.62 | | AH 总股本(百万股) | 7,663.91 | | AH 流通股本(百万 | 7,551.41 | | 股) | | | ROE(TTM) | 18.26% | | 12 月最高价(元) | 83.67 | | 12 月最低价(元) | 58.90 | 2025 年 4 月 30 日 投资要点: 司 点 分析师:魏红梅 SAC 执业证书编号: S03405 ...
设计速度提升100倍,质量翻10倍:豆包超能创意1.0体验
歸藏的AI工具箱· 2025-04-29 08:18
豆包前段时间新的图片模型的实力大家应该也看到了。 强大的提示词理解加上字体和营销图片生成能力直接让人人都能生成自己需要的营销图片或者进行字体设计。 就在前天 豆包又更新了超能创意 1.0 模式 ,我被灰度到了试了一下,给我整麻了。 图片的生成效率和修改效率大幅提升,让本来就很低的设计门槛又低了一大截。 我们可以先看个例子再介绍 我输入的提示词为: 参考下面的提示词帮我生成十个其他知名品牌的胶囊 16:9 图片,先基于品牌和主营业务更改提示词 中的内容然后在生成。 示例提示词为:一个高高的、外观逼真且充满活力的胶囊体水平漂浮着。它的左半边是标志性的星 巴克绿色,标有"Starbucks – Uplifting the Everyday"字样以及经典的美人鱼(Siren)标志。右半 边是透明的,里面填充着漂浮的烘焙咖啡豆、细腻的奶泡漩涡、手绘咖啡杯图标以及代表社区连接 的抽象暖色调线条,需要有背景色。 来看看他给我的结果,我根本没提要哪些品牌,也没提这些品牌的主营业务和典型产品。 他直接从LLM 模型拿到了这些知识然后还按照要求改了提示词 ,太离谱了,而且 这十张图片的生成速度比 4 o 一张都要快很多 。 我测 ...
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
量子位· 2025-04-23 04:50
InstantCharacter 投稿 量子位 | 公众号 QbitAI GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源 定制化角色生成插件——InstantCharacter 。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。 例如,基于适配器的方案虽然基本实现主体一致和文本可控,但在泛化性、姿势变化和风格转换的开放域角 色方面仍然存在困难。基于微调则需对模型进行重新训练,从而浪费过长的时间。更不必说,费用高昂的推 理时间的微调。 为了更好地适应DiT模型,研究员提出了一种可扩展的 full-transformer适配器 ,它作为角色图像与基础模 型潜在生成空间之间的关键连接,通过增加层深度和隐藏特征尺寸实现可扩展性。 而现在这个插件基于 DiTs(Diffusion Transformers) ,能在保证推理效率和文本可编辑性的同时,完 美实现角色个性化创作。 那么一起看看它具体是如何实现的? 方法介绍 现代 DiTs与传统的UNet架构相比,展现出前所未有的保真度和容量,为生成和编辑任务提供了更强大的基 础。基于此,InstantChara ...
速递|OpenAI 计划将Sora接入ChatGPT,Sora的生成能力或扩展到图像
Z Potentials· 2025-03-01 03:53
萨海说, OpenAI 正积极努力让 Sora 可以在 ChatGPT 中访问,将这两个产品结合起来 , 尽管没有透露时间。 萨海表示 , 最终进入 ChatGPT 的 Sora 版本,可能无法提供与 Sora 网络应用程序相同的控制程度, 后者允许用户编辑和拼接视频片段。 利用 Sora 视频将用户引流到 ChatGPT, 将 Sora 接 入 ChatGPT 也可能激励用户升级到 ChatGPT 的高级订阅, 这可能提供更高频率的视频生成。 正如 萨海 在办公时间解释的那样, OpenAI 推出 Sora 作为独立的 Web 应用程序的原因之一是为了维持 ChatGPT 的简单性。 图片来源: Unsplash OpenAI 打算将其 AI 视频生成工具 Sora 直接集成到其应用 ChatGPT 中, 公司在 Discord 上的周五会议上提到。 Sora 仅通过 OpenAI 在 12 月推出的专用 Web 应用程序提供 , 该应用程序允许用户访问同名的 AI 视频模型 , 以生成长达 20 秒的电影风格片段。 然而 ,OpenAI 的 Sora 产品负责人 Rohan Sahai 表示 , 该公司计 ...