文生图

Search documents
Black Forest开源新模型,只用文本实现一键PS
news flash· 2025-06-26 22:41
金十数据6月27日讯,今天凌晨,知名开源平台Black Forest开源了文生图模型FLUX.1-Kontext的开发者 版本。简单来说,FLUX.1-Kontext开发版的主要功能可以像PS一样,让用户通过自然语言就能实现一 键P图。根据Black Forest公布的测试数据显示,FLUX.1-Kontext开发版在人类偏好评估、指令编辑、文 本插入与编辑、样式参考等评估基准中,超过了OpenAI发布的最新文生图模型GPT-image-1,成为目前 最强开源文生图模型之一。 (AIGC开放社区) Black Forest开源新模型,只用文本实现一键PS ...
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
Qian Zhan Wang· 2025-06-01 05:09
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型的模型路径 多模态大模型的探索正在逐步取得进展,近年来产业聚焦在视觉等重点模态领域突破。理想中的"Any- to-Any"大模型,Google Gemini、Codi-2等均是处于探索阶段的方案,其最终技术方案的成熟还需要在 各个模态领域的路线跑通,实现多模态知识学习,跨模态信息对齐共享,进而实现理想中多模态大模 型。现阶段产业主要的工作还是聚焦在视觉等典型的重点模态,试图将Transformer大模型架构进一步在 图像、视频、3D模型等模态领域引入使用,完善各个模态领域的感知和生成模型,再进一步实现更多 模态之间的跨模态打通和融合。 多模态大模型的图像模型 早在2023年LLM的流行之前,过去产业界在对于图像的理解和生成模型领域已经打下了坚实 ...
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 03:39
西风 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,鹅厂把文生图卷出了新高度—— 发布混元图像2.0模型 (Hunyuan Image 2.0) ,首次实现 毫秒级响应,边说边画,实时生成 ! 用户一边描述,它紧跟着绘制,整个过程那叫一个丝滑。不用等待,专治各种没有耐心。 有些画面描述起来太费劲? 别急,还有 实 时绘画 板 玩法。 用户可以手绘想要的元素,然后辅以文字说明,在另一半画板上它立刻就帮你按照草图绘制出来: 昨天腾讯混元团队发布了一小段预告视频,吊足了大伙儿的胃口。 今天终于正式发布了,真实使用效果到底如何? 量子位已抢先拿到测试资格,一起来看看到底怎么个事儿~ 一手实测实时文生图 实测之前,先来看官方给出的一些小tips: 实时文生图 而且当它把"小女孩"这一主体的模样定下来之后,我们再接着描述对画面做补充,它角色一致性保持得也不错。 各种风格都能驾驭: 打开腾讯混元官网我们就直奔实时文生图,然后随便输入了一句话。 果真是一边打字生图直接跟着一起变换,顺畅~ 模型主打真实感、去AI味,真实场景生图效果会更好 模型是英文数据训练为主,有一些中文不能识别的概念,用英文输入会更好 优先推荐16 ...
文生图开源模型黑马,来自合肥
AI研究所· 2025-05-09 17:44
用户依靠自然语言描述,可在15秒内获取细节精准、风格多样的图像,甚至能生成具有连贯性的多 帧画面。 一时间,"用嘴P图"从调侃变为现实,对设计、影视、广告等行业的传统工作模式产生冲击。不过, 由于出图慢、次数受限等种种原因,没有订阅ChatGPT的普通用户颇为困扰。 好消息是,4月,更王炸的开源选手杀出重围,来自中国合肥—— 智象未来(HiDream.ai) 凭借其 自主研发的HiDream-I1图像生成大模型与HiDream-E1交互编辑模型,成为行业焦点。 在Hidream引起世人瞩目的同时,合肥的AI实力也再次被抬到幕前。 01 17B参数模型如何比肩GPT-4o? 在ArtificialAnalysis图像竞技场的评测中,HiDream-I1在发布后的24小时内登顶榜单,成为 首个登 顶该榜单的中国自研生成式AI模型 。 刚刚过去的两个月,如果要说AI领域哪条赛道最热闹,烧钱又内卷的文生图可以算一个。 3月底,OpenAI正式发布全新多模态模型GPT-4o,其强大的文生图功能引爆全球科技圈。 与此同时,在HuggingFace趋势榜上,HiDream-I1也迅速攀升至第二名(图像榜第一),仅次于 GP ...
AI生成字体设计我有点玩明白了,用这套Prompt提效50%。
数字生命卡兹克· 2025-04-13 17:16
阿真摸索出来的非常酷的用即梦3.0生成文字的用法~转载给大家。 嗨大家好!周一上班愉快! 每天脑子里都有很多想法转瞬即逝,不赶紧记录下来就会懒到不想再实践,于是就应该好好记录下来! 今天也是一个很不错的干货, 这组提示词的作用是,你只需要输入你的文字内容,就可以得到还不 错的文字设计的视觉效果。 为了它的效果测试和呈现我几乎掏空了我的即梦AI,测试非常多组合和风格后确信效果确实是还不错 的。 今天简短一点,欢迎大家轻松收看图片,然后查收提示词模板进行尝试! 先放一些看起来还不错的图文效果: "艺术家看到的比你多在哪"/"WHERE DO ARTISTS SEE BEYOND YOU",抽象概念书艺融合留白解构 风格,文字边界轻微溶解如意识边缘,漂浮排布构成意识碎片之感,背景为空灵灰白与虚实交织纹理, 如精神空间裂隙,字体采用半透明层叠毛笔线条,笔触轻盈而残缺,形成超现实视觉留白,气质抽离冷 静,带哲思与冥想氛围,思维跃迁感强烈,极简哲性构图,艺术意识流杰作 "电竞少年"/"E-SPORTS YOUTH",电竞动力融合动感秀逸与科幻光切风格,字体结构尖锐俐落,线条 如电流般延伸,高亮描边与速度动效结合,背景为深 ...
一个万能文生图提示框架,人人都能成为专业AI设计师
Hu Xiu· 2025-04-07 07:45
最近各家文生图 AI 都在不断迭代。 但小白、专业创作者,在文生图时仍会觉得脑中虽有万千想法(maybe 也可能是一团浆糊 ),却很难确定用哪些"提示词"激发模型能力上限,实现更高 效、专业的 AI 设计。 最近一泽研究了一套万能文生图提示框架,我希望它能对你的创作方法有所启发,提供一座创意与 AI 生成能力的桥梁,真正"用想法驱动设计"。 下面是用该提示框架直出的效果图,覆盖"游戏、产品、影视、家装、UI、艺术、摄影"等全设计领域: 先自行总结一下优势(朋友们内测反馈很一致): 1. 用上这套方案后,哪怕是完全不懂设计、不会 AI 的纯小白,也能完全解锁专业级 AI 创作能力(无需学习,就让每个人都会文生图"嘴炮魔法")。 2. 对于专业 AI 创作者、设计师,能无脑让 AI 根据意图,自动编写与优化提示词,大幅提升文生图创作的效率与质量(还能让所有模型外挂精准的多模 态提示/垫图能力)。 3. 缓解文生图"黑箱",提升文生图提示词的可解释性,方便手动微调提示词,也能边用边学,快速提升文生图提示工程能力。 4. 自动同时生成中、英文双版提示词,不再手动翻译,避免提示词失真。 膨胀一点说,在实测中,用上这套框 ...
高速事故发酵,雷军首次回应;OpenAI估值3000亿美元,孙正义投的;金价连续新高,老铺黄金收入和利润也是丨百亿美元公司动向
晚点LatePost· 2025-04-01 15:36
雷军和小米汽车回应小米 SU7 高速交通事故。 4 月 1 日,小米公司发言人微博表示,2025 年 3 月 29 日 22 时 44 分,一辆小米 SU7 标准版在德上 高速公路池祁段行驶过程中遭遇严重交通事故,并造成 3 人死亡。据初步了解,事故发生前车辆处 于 NOA 智能辅助驾驶状态,以 116km/h 时速持续行驶。 据小米汽车公告,事发路段因施工修缮,用路障封闭自车道、改道至逆向车道。车辆检测出障碍物 后发出提醒并开始减速。约 1 秒后,驾驶员接管车辆进入人驾状态,NOA 功能退出。驾驶员持续 减速并操控车辆转向,随后车辆与隔离带水泥桩发生碰撞,碰撞前系统最后可以确认的时速约为 97km/h。 4 月 1 日晚间,小米汽车发布公告,称基于目前已知情况,仅能确定事故车起火并非自燃,推测系 猛烈撞击隔离带水泥桩后,整车系统严重受损导致,并表示由于尚未接触到事故车辆,暂时无法进 一步分析起火原因,以及事故时车门是否可以打开。雷军也首次公开回应此事,称 "代表小米承 诺:无论发生什么,小米都不会回避,我们将持续配合警方调查,跟进事情处理的进展,并尽最大 努力回应家属和社会关心的问题。" OpenAI 向免 ...
OpenAI复制吉卜力,大模型正在吞噬一切产品?
创业邦· 2025-03-28 10:32
来源丨晚点LatePost(ID:postlate) 以下文章来源于晚点LatePost ,作者晚点团队 晚点LatePost . 晚一点,好一点 作者丨贺乾明 编辑丨黄俊杰 图源丨 GPT-4o生图 新产品发布两天后,在OpenAI创始人山姆·阿尔特曼(Sam Altman)的推文下,有人祝贺他十年努力终于 带来了AGI——社交网络上全是吉卜力图像 "All Ghibli Images"。 3月26日,OpenAI更新GPT-4o文生图功能。付费用户可以在ChatGPT直接调用4o生成、修改图片,不再需 要使用OpenAI的文生图模型DALL-E。仅仅一天时间,近年影响较大的照片和meme图都被4o重做了一 遍,最流行的就是宫崎骏的画风。 左右滑动查看 人人都用生成吉卜力画风不仅仅因为宫崎骏对世界的卓绝贡献,也因为OpenAI 的引导——阿尔特曼在 GPT-4o新功能发布的直播里选择生成吉卜力风格的三人自拍照。但其实GPT-4o生成其他风格效果通常也 不错。 文生图已经不新鲜,此前也有文生图产品能实现风格化效果。比如Midjourney年付费用户可以改照片风 格,Stable Diffusion也有专门训练 ...
OpenAI 复制吉卜力,大模型正在吞噬一切产品?
晚点LatePost· 2025-03-27 14:45
题图由 GPT-4o 生成,提示词是"请你根据下面这句话生成一个吉卜力风格的图像:周围有一圈人,看着一个机 器吐出图像"。 文 丨 贺乾明 编辑 丨 黄俊杰 新产品发布两天后,在 OpenAI 创始人山姆·阿尔特曼(Sam Altman)的推文下,有人祝贺他十年努力终 于带来了 AGI——社交网络上全是吉卜力图像 "All Ghibli Images"。 3 月 26 日,OpenAI 更新 GPT-4o 文生图功能。付费用户可以在 ChatGPT 直接调用 4o 生成、修改图 片,不再需要使用 OpenAI 的文生图模型 DALL-E。仅仅一天时间,近年影响较大的照片和 meme 图都 被 4o 重做了一遍,最流行的就是宫崎骏的画风。 左右滑动查看 人人都用生成吉卜力画风不仅仅因为宫崎骏对世界的卓绝贡献,也因为 OpenAI 的引导——阿尔特曼在 GPT-4o 新功能发布的直播里选择生成吉卜力风格的三人自拍照。但其实 GPT-4o 生成其他风格效果通常 也不错。 文生图已经不新鲜,此前也有文生图产品能实现风格化效果。比如 Midjourney 年付费用户可以改照片风 格,Stable Diffusion 也 ...
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 14:35
清华交叉信息研究院硕士,研究方向为多模态生成,扩散模型,一致性模型 代表工作有 LCM, LCM-LoRA, Diff-Foley · 王浩帆 硕士毕业于 CMU,InstantX 团队成员,研究方向为一致性生成 代表工作有 InstantStyle, InstantID 和 Score-CAM · 杨策元 42章经 AI 私董会活动 文生图与文生视频 从研究到应用 分享嘉宾 · 骆思勉 LCM、InstantID 和 AnimateDiff 这三个研究在全球的意义和影响力都非常之大,可以说是过去一整年里给文生图和文生视频相关领域带来极大突破或应用 落地性的工作,相信有非常多的创业者都在实际使用这些作品的结果。 这次,我们首次把这三个工作的作者凑齐,并且还请来了知名的 AI 产品经理 Hidecloud 做 Panel 主持,届时期待和数十位 AI 创业者一起交流下文生图、文生视频 领域最新的研究和落地。 PhD 毕业于香港中文大学,研究方向为视频生成 6/01 | 13:00-14:00 (周六) 北京时间 美西时间 5/31 | 22:00-23:00 (周五) 活动形式 线上(会议链接将一对一发送) ...