Workflow
视觉生成
icon
Search documents
可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费
Cai Fu Zai Xian· 2025-07-10 09:24
Core Insights - The launch of the Ketu 2.1 model by Keling AI significantly enhances image generation capabilities, including improved instruction adherence, stunning portrait aesthetics, and cinematic quality [1][11] - The model is available for free to all member users for a limited time, allowing creators to explore its features [11] Image Generation Capabilities - Ketu 2.1 excels in following complex instructions, accurately capturing multiple elements and details in prompts, resulting in high-quality images that showcase creative imagination [1][3] - The model demonstrates a notable improvement in image quality, including clarity, richness of elements, and realism, particularly in portrait aesthetics [3][5] Artistic and Cinematic Quality - The model can generate images with a cinematic feel, effectively recreating scenes with unique aesthetic tones and advanced composition [6] - It supports over 180 different styles, allowing creators to choose from various artistic expressions, from vintage photography to futuristic digital art [10] Text Generation Features - Ketu 2.1 also enhances text generation, producing clear and design-oriented text in both Chinese and English, facilitating smoother integration of text and images for marketing and creative projects [8] User Engagement and Growth - Keling AI has achieved significant user engagement, with a total of 344 million images and 168 million videos generated since its launch, showcasing its strength in the image generation sector [11]
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
机器之心· 2025-06-30 03:18
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计。以下工作为赵天辰在字节跳动-Seed视 觉部门实习期间完成 近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。与输入序列长度呈平方复杂度 的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。注意力的稀疏化(Sparse Attention)与低比特量化 (Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。然而,这些方法在视觉生成模型中,在低稠密度(<50%)与低比特 (纯 INT8/INT4)时面临着显著的性能损失,具有优化的需求。 本文围绕着视觉任务的 "局部性"(Locality)特点,首先提出了系统的分析框架,识别出了视觉生成任务 Attention 优化的关键挑战在于 "多样且分散" 的注意力模 式,并且进一步探索了该模式的产生原因,并揭示了多样且分散的注意力模式,可以被统一为代表 "局部聚合" ...
国内首个移动端视觉生成大模型“橘洲”V1端侧版在长沙上线
news flash· 2025-05-21 03:08
5月21日,国内首个基于国产算力预训练的视觉基座大模型"橘洲"V1端侧版在长沙正式上线。该模型能 在手机端实现1024×1024分辨率图像的秒级生成,具有成本低、质量高、速度快、轻量级、可离线等特 点。"橘洲"大模型由湖南汇视威智能科技有限公司自主研发,依托中科曙光(603019)算力,在较短时 间完成了近4000万张图片训练,成为全国首个在国产算力上完成整体训练和推理过程,并实现移动端部 署的视觉基座大模型。(长沙发布) ...
手机能畅玩,“橘洲”有多硬核?
Chang Sha Wan Bao· 2025-05-21 00:20
长沙晚报全媒体记者 张洋子 2025年,当全球AI竞赛进入"端侧部署"新阶段之际,一款纯国产、适配智能手机端、输入文字可实现秒级出图 的视觉生成大模型首次亮相长沙。 20日,湖南汇视威智能科技有限公司(以下简称"汇视威")发布了视觉基座大模型"橘洲"(V1端侧版本)。与 当前主流的视觉生成大模型有所区别,"橘洲"是国内基于国产算力预训练的视觉基座大模型,可在智能手机端 实现1024×1024分辨率图像的秒级生成,并能满足在移动端上的部署和推理需求。 轻量化架构优势、多项突破性技术,"橘洲"将实现在全国甚至全球行业关键性能领跑,剑指全球行业榜单。这 款"橘洲"有多"硬核"?本报记者一探究竟。 "硬核"设计:适配手机,"小身材"有"大能量" 视觉基座大模型是视觉人工智能生成的基础设施,目前的视觉基座大模型由于其参数量大、算力需求高,推理 过程大多在服务器"云端"实现,因此端侧通用视觉大模型成为破局关键。 "算力消耗巨大、高延迟、安全隐私风险、服务器维护成本高,这些都是传统视觉大模型的缺点。"汇视威创始 人、董事长顾善植介绍,这种运用方式有三大弊端:一是模型推理成本高,给服务器算力成本和运维成本带来 极高压力;二是 ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 08:09
本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。 R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。 现在,我们推出名为 DanceGRPO 的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美 学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。 论文标题: DanceGRPO: Unleashing GRPO on Visual Generation arXiv 链接:https://arxiv.org/pdf/2505.07818 动机 在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的 ...