Workflow
图像
icon
Search documents
混元与AI生图的“零延迟”时代
腾讯研究院· 2025-05-20 08:48
以下文章来源于腾讯科技 ,作者晓静 腾讯科技 . 腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 晓静 腾讯科技特约作者 5月16日,腾讯混元推出Hunyuan Image2.0 (混元图像 2.0 模型) ,基于超高压缩倍率的图像编解码器,全新扩散架构,实现超快的推理速度和超高质量图像生 成,极大降低"AI味"。 当前主流文生图模型的最大问题是生成时间长,即使是业内领先的模型,也需要5-10秒才能生成一张图像。 此外,文生图模型普遍存在结果随机性问题,用户通常需要多次生成才能获得满意的结果。标准的使用流程通常是"输入提示词→等待数秒→查看结果→调整 重试",对于复杂图像,可能需要十余次调整才能得到真正可用的图。 如果能做到"所见即所得",对产业应用而言,意味着降本增效;对个人用户而言,这项技术提供了类似即时设计助手的体验:制作演讲插图、创意宠物照片等 任务都可以快速完成。即时反馈机制能让创意连贯,让想法更流畅地表达。 | GenEval bench | Overall | Single Obj.l | Two Obj. | Counting | Colors | Position | Color Attri ...
边写边画、边说边画,混元图像2.0来了!
Hua Er Jie Jian Wen· 2025-05-16 12:00
实际测试显示,混元图像2.0能够实现"一边打字一边出图"的完全实时反馈,用户输入提示词的过程中,画面会随着文字变化而实时调整。 例如输入"人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度",系统能够实时生成符合描述的图像,并在每个新元素添加时立即更新画面。 5月16日,腾讯推出了其新一代图像生成模型——混元图像2.0(Hunyuan Image 2.0),号称将图像生成速度提升至"毫秒级"。 何谓"毫秒级"?答案可能令人大吃一惊:当用户在输入提示词的同时,即可看到图像的实时变化,所见即所得。 腾讯表示,得益于超高压缩倍率的图像编解码器以及全新扩散架构,该模型参数量提升了一个数量级,实现了毫秒级响应速度,改变了传统"抽卡—等待 —抽卡"的方式,带来交互体验革新。 混元图像 2.0 不仅实现了"边说边画"的实时互动,还在模型架构和生成质量上实现了全面飞跃。在GenEval基准测试中,混元图像2.0模型的准确率超过 95%,远超其他同类模型,证明了其在复杂文本指令理解与生成方面的卓越能力。 交互革新:"边打字边出图"的新范式 人物的表情也可以瞬间改变,比如让爱因斯坦吐舌头: 除此之外,还可以连续对画面增加或修改多 ...
腾讯混元上新:话没说完,图就生成了……
Guan Cha Zhe Wang· 2025-05-16 09:57
(文/万肇生 编辑/张广凯) 5月16日,腾讯发布最新混元图像2.0模型,该模型号称改变传统"抽卡—等待—抽卡"的方式,在行业内率先实现实时生图,带来交互体验革新。 目前市面上的各类大模型中,除了非推理语言大模型的生成外,几乎所有模态大模型的生成过程,都或多或少需要经历等待。尤其在文生图领域,抽卡一 样重复生成多个结果,严重影响效率。然而据腾讯介绍,该混元图像2.0就主打一个"快",支持文生图和绘画生图。且无论是输入文字指令、语音指令, 或上传本地图、在线绘制图,"都能毫秒级获得高质感图像"。 根据演示案例显示,用户在输入"一位女士"时,模型首先生成了一张证件照。此时在输入框内继续输入"…风景照、沙漠中",画面的背景于是瞬间变成翠 绿色,紧接着又秒变成沙漠黄。继续再输入"扎着头发、回眸一笑",画面也飞速切换,最终随着输入操作的结束,画面直接生成完毕。 本文系观察者网独家稿件,未经授权,不得转载。 在另一个生成"爱因斯坦在东方明珠前自拍"的案例中,该模型也非常迅速的展现出整个生成的过程。 通常情况下,绘画过程中的即时反馈可以让用户对作品迅速做出调整,但AI图像生成的修改往往是反复投喂产出。因此,如果在生成的过程 ...
腾讯混元图像2.0:毫秒级AI生图,实时绘画板引领创作新潮流
Sou Hu Cai Jing· 2025-05-16 09:15
近日,腾讯正式推出了其最新的图像生成技术——混元图像2.0模型(Hunyuan Image 2.0),这一技术革新在行业内引起了广泛关注。混元图 像2.0不仅实现了实时图像生成,还以其超写实的画面质感脱颖而出,为用户带来了前所未有的体验。 ▲动物特写 现在,用户可以通过访问腾讯混元官方网站(https://hunyuan.tencent.com/)注册并体验这一前沿技术。相较于前代模型,混元图像2.0的参数量 实现了显著提升,这得益于其采用的超高压缩倍率的图像编解码器以及全新的扩散架构,使得图像生成速度远超行业平均水平。 具体而言,在同类商业产品中,每张图像的推理速度通常需要5到10秒,而腾讯混元图像2.0则能在毫秒级时间内完成响应。这意味着用户可以 在打字或说话的同时,即时看到生成的图像,彻底颠覆了传统图像生成中"等待-生成"的单一模式。 除了速度上的优势,混元图像2.0在图像生成质量上也取得了显著进步。通过强化学习等先进算法,并结合大量人类美学知识,生成的图像不 仅真实感强、细节丰富,而且有效避免了AIGC图像中常见的"AI味",使得图像更具可用性和艺术价值。 在图像生成领域的专业评估基准Geneval上 ...
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 08:16
人像摄影风格 动物特写 AI图像生成进入"毫秒级"时代。 5月16日,腾讯发布最新混元图像2.0模型(Hunyuan Image2.0),基于模型架构创新,在行业内率先实现实时生图,在画面质感超写实的基础上, 带来全新的AI生图交互体验。模型于即日起在腾讯混元官方网站上线,并对外开放注册体验。 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领 先模型,在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了 传统"抽卡—等待—抽卡"的方式,带来交互体验革新。 除了速度快以外,腾讯混元图像2.0模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图 像中的"AI味" ,真实感强、细节丰富、可用性高。 在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准 GenEval(Geneval Bench)上,腾讯混元图像2.0模型准确率超过95%,远超其他同类模型。 | | | | | | | 文生图客观指 ...
Manus突发上新文生图!告别“抽卡”,Agent+深度思考联合创作
量子位· 2025-05-16 05:36
举个例子,丢给它一张房间照片,让它去宜家官网找家具,生成可视化装修效果。 并且按照演示中的要求,除了画图之外还要在结果当中附上选择的家具链接,结果Manus一通操作都完成了。 拿到照片后,Manus首先根据地板、墙壁等布置分析了房间的风格,形成了一份分析报告。 网友评价,把智能体工作流与图像生成结合到一起,是一个很好的主意。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Manus深夜官宣,现在 支持生成图像 了! 图像生成,先动脑再动手 和一般AI绘图工具的"抽卡"模式不同,Manus 能够理解你画图的目的,规划出生成方案后再"动手" 。 我们不妨看一下,Manus在合成效果图时,具体都做了些什么。 之后,Manus通过搜索找到了宜家官网并在沙盒环境当中进行浏览。 一通浏览之后,Manus筛选出了它认为适合放在房间里的家具,并且生成了文字版的介绍。 最后,Manus合成了最终的效果图并按照要求创建了带有商品链接的页面。 再看看Manus展示的其他案例。 Manus被要求基于对饮料市场流行视觉元素的理解,为一个名为"TeaVive"的茶饮料设计一款饮料瓶,并且要求中还提到推广青少年健康。 可以看到, ...
Manus推出图像生成功能
news flash· 2025-05-16 05:21
《科创板日报》16日讯,Manus宣布推出图像生成功能。据介绍,Manus不仅是生成图像,它了解用户 的意图,规划解决方案,并知道如何有效地使用图像生成和其他工具来完成用户的任务。 Manus推出图像生成功能 ...
刚刚,Manus生图功能强势登场!从设计到搭建网站一站式搞定,1000积分免费薅
机器之心· 2025-05-16 04:39
| 机器之心报道 | | --- | 编辑:陈陈、杜伟 那个曾经一码难求的 Manus 已经可以全面注册了。从此以后,到处求购邀请码的时代一去不复回。 首次注册就送「1000 积分」让你尝尝鲜! 不得不说,Manus 这次真是豪气了一回,大家赶紧去薅羊毛。 就在今天,Manus 又宣布了另一个好消息,推出图像生成功能。 这里要强调一下, Manus 不只是生成图像,它能理解用户意图,规划解决方案,并知道如何有效地调用图像生成工具以及其他工具来完成你的任务 。 既然免费用,我们当然不能错过这个好机会,机器之心立马来了一波体验测试。 Manus 生图功能到底咋样? 输入提示:「我想创建一个名为 CoLe 的瓶装茶饮料品牌,倡导青少年健康的生活方式。请根据你对饮料市场流行视觉风格的理解,设计一个瓶子。」 | 0 Q | Designing a Bottle for CoLe Teen B ... 9 17 ... | မြိ Manus 的电脑 | | --- | --- | --- | | + 新建任务 Ctrl K | | Manus 正在使用编辑器 2 | | | | 正在编辑文件 todo.md | | D ...
马王堆汉墓文物T形帛画首次发现多处改绘痕迹
Xin Hua She· 2025-05-16 02:48
记者从湖南博物院5月16日举办的发布会上获悉,湖南博物院专家通过多模态图像信息采集手段(包括多光谱—高光谱成像、大幅面X射线荧光成 像)首次发现馆藏国宝文物T形帛画上有多处改绘痕迹。 发现改绘痕迹的T形帛画出土于马王堆一号墓,墓主是长沙国丞相利苍之妻辛追。这幅布景壮丽、想象奇特的帛画,被誉为湖南博物院"镇馆之 宝"之一。 图为马王堆一号墓出土的T形帛画。(湖南博物院供图) 喻燕姣说,T形帛画用毛笔绘制,先勾勒线条再进行绘画着色等,改绘有可能是作画者在绘画时的常规操作,但原本绘有底稿的玉圭没有利用, 则有可能是T形帛画准备时间较早,到辛追夫人去世时,礼仪已经发生改变所导致。"在T形帛画上绘制的门吏是守卫天门,同时承担迎接辛追夫 人灵魂升天的职能,其手中执玉圭是一种非常高的觐见礼仪,多用于春秋战国时期,也许到汉代这一礼仪发生了改变,觐见时已不需要手执玉 圭。" 图为马王堆一号墓出土的T形帛画有改绘痕迹的部分示意图。(湖南博物院供图) 图为马王堆一号墓出土的T形帛画有改绘痕迹的部分示意图。(湖南博物院供图) 此外,专家还通过多模态图像信息采集手段发现了出土于马王堆三号墓的《车马仪仗图》右下方14列威武的骑兵方阵处有 ...
AI图像系列(二):生活场景产品力制胜,AI锦上添花
HTSC· 2025-05-14 01:50
Investment Rating - The report maintains a "Buy" rating for Meitu, with a target price of 7.49 HKD [11]. Core Viewpoints - AI technology is expected to have a supplementary effect on image life scenarios in the short term, while the long-term competitiveness will rely on vertical data-driven AI model tuning and user understanding [5][14][19]. - The global market for image life scenarios is projected to reach approximately 7 billion USD in 2024, with a low average payment penetration rate of around 4% [21][25]. - Meitu is well-positioned to benefit from user growth and increased subscription penetration driven by AI, leveraging its deep understanding of user needs and experience in high-quality domestic products [6][49]. Summary by Sections Industry Investment Rating - The report recommends a "Buy" rating for Meitu, indicating confidence in its market position and growth potential [11]. Market Analysis - The image life scenario market primarily targets social and entertainment needs, with a user base of approximately 4 billion but a low payment penetration rate of 4% [21][25]. - The potential market space for image life scenarios in 2024 is estimated at 7 billion USD, which is significantly less than productivity scenarios [21][25]. AI Impact on the Industry - AI is expected to enhance product capabilities rather than replace existing applications in the short term, with traditional applications maintaining an advantage due to established user habits and data accumulation [5][14][19]. - AI can create new user growth paths and expand subscription opportunities, with successful examples like FaceApp and Meitu demonstrating the effectiveness of AI-driven features in user engagement [3][15][40]. Regional Market Opportunities - The report highlights the differences in subscription model maturity across global markets, with the US and Europe being more established, while Southeast Asia presents significant growth potential due to its large user base and cultural affinity [4][18][62]. - In the US market, the revenue contribution is high, while Southeast Asia has a larger number of active users, making both regions key targets for Meitu's international expansion [62][63]. Competitive Landscape - The report argues against the prevailing market view that AI will disrupt traditional image life applications, asserting that the short-term impact will be more about enhancement than replacement [5][19]. - Meitu's long-standing experience in the beauty application sector positions it favorably to leverage AI advancements for sustained growth and user retention [6][49].