图像

Search documents
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-10 20:40
昨天Grok4发布完以后,我随手刷了一下X。 然后看到了一个非常有趣的帖子,来自@lepadphone。 我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。 我自己也去测了一下,确实数是5根。 我本来没当回事。 直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。 我瞬间皱了眉头,然后扔给了o3 pro。 在推理了48秒之后,还是5根。 然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。 而无一例外,所有的模型,给我回复的,都是5根。 唯独有一个活口,Claude 4,偶尔会回答正确。 瞬间一股子冷汗就下来了。 一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。 深夜在群里试图问了一下,结果石沉大海。 那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。 《Vision Language Models are Biased》(视觉语言模型存在偏见) 这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。 我花了 ...
案例数居首位!平安产险9个AI产品入选信通院首批开源大模型创新应用典型案例
Sou Hu Cai Jing· 2025-07-08 10:43
强化AI能力建设,构建AI生态 2025年7月3日,由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社和联合国开发计划署共同主办的2025全球数字经济大会在北京召开, 中国信息通信研究院正式发布了2025年可信安全最新评估结果,平安产险车代AI超级助理、团非数字核保人、团体AI销辅、AI活动营销助手、个非AI核保 助手、产小保(产品助手)、创小保AI助手、AI经营助手和数字化风控9个产品,凭借优秀表现,成功通过开源大模型集成应用能力质效评估,并入选首 批"开源大模型+"软件创新应用典型案例,成为本次入选案例数量最多的公司,充分展现了平安产险在大模型技术创新及应用领域的国际领先地位! 此次信通院开源大模型集成应用能力质效评估,针对企业产品或服务集成大模型的接入能力、应用能力、模型性能、安全能力、兼容适配、运营管理等六个 维度进行检验,平安产险参评的9个产品聚焦销售、核保、理赔和风控等实际业务场景,凭借卓越的应用效果、交互体验和业务适配性,成功通过应用能力 评估,并从68个入围案例中脱颖而出,入选首批"开源大模型+"软件创新应用精选案例。此次入选不仅展示了平安产险在AI技术创新实践上的强大实力,更 标 ...
南农大梨新品种家族集体“出道”
Ke Ji Ri Bao· 2025-07-08 02:07
"我们的目标就是培育好吃、好看、好种的梨,让消费者吃得甜、果农种得顺、市场季季鲜。"中国 工程院院士、南京农业大学梨工程技术研究中心主任张绍铃表示。 原标题:南农大梨新品种家族集体"出道" "特别清甜!"6月28日,在南京农业大学梨工程技术研究中心的梨新品种推荐交流会上,"宁梨早 露"等一批新品种收获了专家和种植企业的点赞。这场交流中,与会专家代表、主管部门、合作地市、 种植户与市场代表以梨为媒共话发展,为江苏乃至全国梨产业递上一份"甜美的答卷"。 "这是一场与时间的赛跑。果树生长周期长,从杂交授粉到育成品种,传统做法需要12至15年的时 间。"齐开杰介绍,为了跑出育种"加速度",科研团队将图像识别、机器学习技术应用于梨表型性状评 价,同时创新应用系列梨杂交实生苗栽培管理技术,针对田间评价数据回溯难及统计分析工作量艰巨等 问题,开发了"云上后稷"育种信息新平台,规范田间评价数据采集,有效提高了梨新种质的创制效率。 "以'宁梨早露'为例,通过我们的育种技术升级,以杂交育种结合芽变、诱变育种,分子标记筛选 结合表型评价,成功为新品种培育提速增效。"齐开杰说。 南京农业大学梨创新团队成员、园艺学院副院长陶书田介绍, ...
见证历史!全球领先!基于叠铖·利扬 TerraSight芯片的无人矿卡成功演示!
Cai Fu Zai Xian· 2025-07-07 06:29
7月5日,在内蒙古鄂尔多斯试验场,来自全国矿山、重卡、投资领域的专家见证了一场历史性突破!搭 载叠铖·利扬超宽光谱图像传感器芯片TerraSigh的无人矿卡现场演示了在烟尘、逆光、炫光、透明移动 物体等复杂场景下的动态障碍检测和无人驾驶,这是全球首个真正全天候的无人矿卡解决方案,具有全 球领先性! 该测试场模拟了矿山的多种复杂路况,如道路中有衣物、透明异物、翻浆路面,人员进入道路、车辆加 塞、车辆快速切入行进道路以及严重雾霾环境等,在这些场景中,该无人矿卡都实现了有效识别并做出 了与老司机同样的措施。 如对地上衣物做了准确判断,没有减速直接通过,这已经超越了目前很多无人矿卡,因为这是目前市场 上唯一一个只撞假人不撞真人的无人驾驶解决方案,它不会因为在道路有衣物等会停车不前或者需要人 工干预--这样的处理会严重影响作业效率,这也是当前很多无人矿卡不被矿场接受的一个主因。 随着5G、人工智能、大数据、智能驾驶等技术的快速发展,矿山企业对智能化设备的需求不断增加, 加上国家政策的引导,无人矿卡作为智慧矿山的"最后一公里"正迎来了快速发展的大机遇! 目前中国已成为全球首个突破1000台无人驾驶矿卡落地规模的国家,截至 ...
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 08:44
如果您有任何科研辅导需求,欢迎联系我们! 自驾方向: 大模型、VLA、端到端自动驾驶、3DGS、BEV感知、目标跟踪、毫米波雷达视觉融合、激光视觉融合、 多传感器标定、多传感器融合、车道线检测、在线地图、轨迹预测、世界模型、3D目标检测、Occupancy、高性能计 算、NeRF、语义分割、决策规划等。 具身方向: VLA、视觉语言导航、端到端、强化学习、Diffusion Policy、sim2real、具身交互、抓取点预测与位姿估 计、机器人决策规划、运动规划、3DGS、SLAM、触觉感知、双足/四足机器人、遥控操作、零样本学习等; 3D视觉 相关: 点云处理、3DGS、SLAM等; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今年的CVPR和ICCV工作陆续放出,从今年的2大顶会来看热点研究方向,主要集中在四个部分:通用cv、自动驾驶 相关、具身相关、3D视觉相关。下面是4个领域中细分的子方向。 计算机视觉与图像:diffusion、图像质量评估、半监督学习、零样本、开放世界检测等; 自动驾驶相关,集中在端到端、闭环仿真3DGS、多模态大模型、扩 ...
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 12:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 GianlucaMonaci 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 图像目标导航(Image goal navigation)需要两种关键能力:一是核心导航技能,包括检测自由空间、障碍物 及基于内部表征做决策;二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图 像匹配,要么预训练计算机视觉模块进行相对位姿估计。 研究聚焦于一个关键问题:该任务能否如近期研究所说,通过强化学习(RL)对完整智能体进行端到端训 练来高效解决?若答案为肯定,其影响将超出具身AI领域,有望仅通过导航奖励来训练相对位姿估计模型。 核心研究内容与方法 关键架构选择 研究探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算,这对提取方向信息 至关重要。主要架构包括(figure 2): 实验设计 Late Fusion :分别编码观察图像和目标图像 ...
赛道Hyper | Black Forest开源新模型:文本P图党福音
Hua Er Jie Jian Wen· 2025-07-03 05:50
Black Forest官方测试报告显示,该模型在人类偏好评估、指令编辑等多项关键指标优于OpenAI最新发 布的GPT-image-1,标志着开源模型在高精度图像编辑领域取得新进展。 FLUX.1-Kontext的技术架构由自然语言解析、图像生成和多模态融合三个关键模块构成。 自然语言解析层采用改进型Transformer架构,配置8层自注意力机制,能对用户指令做深度语义拆分。 比如面对"将画面左侧咖啡杯替换为青花瓷杯,杯内咖啡表面添加拉花图案"的指令,系统可精准识别出 对象替换、材质变更、细节添加等子任务,并分配相应权重。 图像生成引擎基于改进版扩散模型(DPM-Solver++)构建,创新引入动态噪声调度机制。 作者:周源/华尔街见闻 在AI绘画领域竞争白热化的当下,开源与闭源模型的博弈持续深化。 6月底,知名开源平台Black Forest推出文生图模型FLUX.1-Kontext开发者版本,凭借"自然语言指令实现 图像编辑"的核心功能,迅速成为行业焦点。 该机制可依据指令复杂程度自动调整去噪迭代次数:处理"将天空改为黄昏色调"等简单指令时,20步内 即可完成;面对"将人物服装添加复古刺绣纹样"等复杂 ...
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 04:14
机器之心发布 机器之心编辑部 2024 年 9 月,智源研究院发布了 统一图像生成模型 OmniGen 。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功 能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。 在这一背景下,OmniGen 迎来重大技术升级,正式发布 OmniGen2 。新一代模型在保持简洁架构的基础上, 显著增强了上下文理解能力、指令遵循能力和图像生 成质量 。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力, 同时支持图像和文字生成,进一步打通了多模态技术生态 。同时, 模型权重、训练代码及 ...
字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
量子位· 2025-07-02 09:33
Core Viewpoint - ByteDance has introduced Xverse, a multi-subject control generation model that allows precise control over each subject without compromising image quality [2][6]. Group 1: Xverse Overview - Xverse utilizes a method based on the Diffusion Transformer (DiT) to achieve consistent control over multiple subjects' identities and semantic attributes [6]. - The model comprises four key components: T-Mod adapter, text flow modulation mechanism, VAE encoding image feature module, and regularization techniques [8][10][11]. Group 2: Key Components - T-Mod adapter employs a perceiver resampler to combine CLIP-encoded image features with text prompt features, generating cross-offsets for precise control [8]. - The text flow modulation mechanism converts reference images into modulation offsets, ensuring accurate control during the generation process [9]. - The VAE encoding module enhances detail retention, resulting in more realistic images while minimizing artifacts [10]. Group 3: Regularization Techniques - Xverse introduces two critical regularization techniques to improve generation quality and consistency: XVerseBench benchmark testing and multi-dimensional evaluation metrics [11][12]. - XVerseBench includes a diverse dataset with 20 human identities, 74 unique objects, and 45 different animal species, featuring 300 unique test prompts [11]. Group 4: Evaluation Metrics - The evaluation metrics include area retention loss, text-image attention loss, DPG score, Face ID similarity, DINOv2 similarity, and aesthetic score [12][13]. - These metrics assess the model's editing capabilities, identity maintenance, object feature retention, and overall aesthetic quality of generated images [13]. Group 5: Comparative Performance - Xverse has been compared with leading multi-subject generation technologies, demonstrating superior performance in maintaining identity and object correlation in generated images [14][15]. - Quantitative data shows Xverse achieving an average score of 73.40 across various metrics, outperforming several other models [15]. Group 6: Research Background - The ByteDance Intelligent Creation Team has a history of focusing on AIGC consistency, developing advanced generation models and algorithms for multi-modal content creation [17]. - Previous innovations include DreamTuner for high-fidelity identity retention and DiffPortrait3D for 3D modeling, laying the groundwork for Xverse [18][19][21]. Group 7: Future Directions - The team aims to enhance AI creativity and engagement, aligning with daily needs and aesthetic experiences [22].
颠覆传统加密:微算法科技创新LSQb算法,提升量子图像处理速度
Zhong Guo Chan Ye Jing Ji Xin Xi Wang· 2025-07-02 03:06
量子比特嵌入:将原始图像进行预处理,将其转换为适合量子计算的形式。然后,根据最小有效量子比特的原则,将图像信息 映射到量子比特上。通过改进嵌入方式,使得量子比特在表示图像信息时,所需量子比特数量减少,从而降低算法复杂度。 在信息技术飞速发展的今天,量子计算作为一种新兴的计算方式,逐渐成为研究热点。其中,量子图像处理作为量子计算的重 要应用领域,具有广泛的研究价值。微算法科技在量子图像的最小有效量子比特算法(LSQb)基础上,通过改进量子比特的嵌 入和提取方式,减少量子门的使用数量,降低算法的复杂度,从而提高信息隐藏和提取的速度。 安全性分析:针对LSQb算法的安全性,微算法科技进行了详细分析。通过量子纠缠、量子不可克隆定理等原理,证明了算法在 理论上具有较高安全性。 LSQb算法是一种基于量子图像处理的高效算法,其主要思想是通过最小有效量子比特表示图像信息,从而实现信息的隐藏与提 取。该算法具有较高的安全性、实时性和实用性,为量子图像处理领域的发展提供了有力支持。 微算法科技基于LSQb算法改进后的量子图像处理算法,具有高安全性、强并行处理能力、高鲁棒性、灵活性的技术优势。由于 量子比特的叠加态和纠缠态特性, ...