图像

Search documents
李公明︱一周书记:从图像中发现……天文学家的椅子及社会文化史
Xin Lang Cai Jing· 2025-06-05 04:48
《天文学家的椅子:19世纪的科学、设计与视觉文化》,[加] 奥马尔·纳西姆著,高旭东译,中信出版 社丨见识城邦,2025年4月版,380页,78.00元 德国雷根斯堡大学科学史教授奥马尔·纳西姆(Omar W. Nasim)的《天文学家的椅子:19世纪的科学、 设计与视觉文化》(The Astronomoer's Chair: A Visual and Cultural History,2021;高旭东译,中信出版 社,2025年4月)是一部很独特和有趣的研究专著,一切起源于看图,以及在这过程中产生的充满好奇 心的观察。 关于图像史料在科学史研究中的作用与意义,我们也并不陌生。玛丽娜·弗拉斯卡-斯帕达(Marina Frasca-Spada)、尼克·贾丁(Nick Jardine)主编的《历史上的书籍与科学》(Books and the Sciences in History,2000;苏贤贵等译,上海科技教育出版社,2006年)由一批著名学者分章撰写,内容涵盖从法 兰克王国卡洛林王朝的学术复兴到十九世纪中期的科学体系,科学书籍中的图像史料、插图作者的绘制 与传播过程是其中的重要研究议题。书中第五章"图解自然 ...
下一代光刻机,太难了!
半导体行业观察· 2025-06-05 01:37
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 semiwi 。 在高数值孔径 EUV 光刻系统中,数值孔径 (NA) 从 0.33 扩展到 0.55。这一变化被宣传为可以避 免在 0.33 NA EUV 系统上进行多重图案化。直到最近才有具体的例子提供。事实上,在 DUV 双 重图案化已经足够的情况下,EUV 已经实现了双重图案化。 数值孔径的增加允许使用更多衍射级数或更宽的空间频率范围进行成像。对于同一幅图像,拥有更 多衍射级数可以产生更明亮、更窄的峰值,如图1的示例所示。 图 1. 对于相同的四分之一节距输入线图案,四个衍射级比两个衍射级产生更明亮、更窄的峰值。 NILS 因峰值更尖锐而得到改善。 峰值越尖锐,意味着归一化图像对数斜率 (NILS) 越好,因此光子吸收中散粒噪声的随机效应不会 那么严重。因此,与 0.55 NA 相比,0.33 NA 的直接打印图像更容易出现质量下降。 为了将散粒噪声保持在足够低的水平,以保证单次0.33 NA曝光,剂量必须增加到一定程度,使吞 吐量或光刻胶损失成为不利因素,例如> 100 mJ/cm 2。另一方面,如果将0.33 NA图案分成两个 单独曝光 ...
长安汽车申请低光照图像的增强方法及装置等专利,有效保留低光照图像的场景细节
Jin Rong Jie· 2025-06-04 05:41
Group 1 - Chongqing Changan Automobile Co., Ltd. has applied for a patent titled "Method and Device for Enhancing Low-Light Images, Storage Medium, and Electronic Device" with publication number CN120088411A, filed on April 2025 [1] - The patent aims to address the technical issue of missing details in low-light images by providing a method that includes obtaining low-light images, camera poses, and sparse point clouds for 3D scene reconstruction [1] - The method enhances the illumination of low-light images by constructing a Gaussian sphere distribution based on the absorption properties of objects, effectively preserving scene details [1] Group 2 - Chongqing Changan Automobile Co., Ltd. was established in 1996 and is primarily engaged in the automotive manufacturing industry, with a registered capital of approximately 992.18 million RMB [2] - The company has invested in 117 enterprises and participated in 5,000 bidding projects, holding 3,116 trademark records and 5,000 patent records [2] - Additionally, the company possesses 964 administrative licenses, indicating a robust operational framework [2]
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 03:30
本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转 入 UIUC),主要研究方向是多模态学习、生成模型和视频理解,并在 CVPR、ECCV、ACL 等会议发表相关论文。本文工作是赖柏霖在 Meta 的 GenAI 部门实 习时完成。 例如:我们需要模型将一辆普通的汽车变换为兰博基尼,如果训练集中没有包含类似的数据,模型很难仅通过「兰博基尼」四个字推断出其对应的形状、纹理等 视觉特征,同时兰博基尼的特征也很难通过语言来详尽地描述。如今网络的快速普及导致大量新的概念不断涌现,这些没有被包含在训练数据中的新概念对于目 前图像编辑模型的泛化能力是个很大的挑战。 为了解决这一难题,一个直接有效的方法是在文字指令的基础上额外提供一组或多组变换前后的图片作为样例,让模型从中学习用户想要的图像变换,即 few-shot 图像编辑。目前已有的模型都是基于扩散模型开发,然而从图片样例中学习潜在的图像变换需要模型有很强的推理能力,扩散模型生成能力很强但推理能力依然 较弱。 相反地,自回归模型(autoregressi ...
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心· 2025-05-31 06:30
OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 "看图",还能 "用图思考",开启了视觉与 文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关系,并结合知识库推导出答案;在解析建筑图纸时,o3 可在推理过程中旋转或裁剪局部结构,判断承重设计是否合理。这种 "Thinking with Images" 的能力,使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%,刷新了多模态模型的推理上限。 然而,OpenAI 如何赋予 o3 这一能力,学界和工业界仍不得而知。为此, 小红书团队联合西安交通大学, 采用端到端强化学习,在完全不依赖监督微调(SFT) 的前提下,激发了大模型 "以图深思" 的潜能, 构建出多模态深度思考模型 DeepEyes,首次实现了与 o3 类似的用图像进行思考的能力,并已同步开源相关技术细 节,让 "用图像思考" 不再是 OpenAI 专属。 论文地址:https://arxiv.org/abs/2505.14362 项目地址:https://visu ...
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 05:38
编译|冬梅、核子可乐 Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚 刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还 允许用户添加文本及其他图像以实现内容修改。 该公司在 X 上发文称:"今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生 成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于 上下文的生成和编辑能力。" BFL 公司联合创始人兼 CEO Robin Rombach 表示:"FLUX.1 Kontext 通过将图像生成和编辑统一在 一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练, 我们实现了跨 多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度 。这实现了真 正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。" 该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BF ...
上市公司案例分析:川大智胜
Sou Hu Cai Jing· 2025-05-30 05:30
四川川大智胜软件股份有限公司(以下简称"川大智胜"),成立于1994年6月4日,注册于成都市武科东一路七号,是由四川大学教授游志胜创立的一家高科 技企业。公司长期坚持自主创新,将图形图像技术、人工智能技术应用到三维测量与人脸识别、航空与空中交通管理、飞行模拟等领域。2008年6月,川大 智胜在深圳证券交易所挂牌上市。经过多年的技术沉淀,公司已成为国内领先的三维人脸识别系统及空中交通管制系统的产品开发、系统集成和服务供应 商。 然而,2025年4月28日,川大智胜因财务指标不达标被实施退市风险警示,股票简称变更为"ST智胜"。这家曾是国内空管系统与三维人脸识别技术的领军 者,如今却陷入营收连年萎缩、净利润持续亏损的困境。 川大智胜的成功离不开其卓越的技术创新和深厚的行业积累。公司长期坚持自主创新,致力于图形图像技术和人工智能技术的研发与应用。通过多年的努 力,川大智胜在三维测量与人脸识别、航空与空中交通管理等领域取得了显著成果,成为国内该领域的领军企业。 公司曾获得多项国家级和省部级科技进步奖,拥有雄厚的知识产权实力。其品牌项目"川大智胜"在市场上具有较高的知名度和影响力。此外,川大智胜还积 极参与国内外行业交 ...
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 03:02
机器之心报道 机器之心编辑部 当今计算机视觉领域最热门的三个方向。 当今计算机视觉领域最热门的话题有哪些? 「自 2020 年 NeRF 论文首次发表以来,利用深度网络进行 3D 重建已成为趋势。如今高斯泼溅(Gaussian splatting)技术进一步推动了这一发展,」CVPR 2025 程序联合主席、美国俄勒冈州立大学副教授 Fuxin Li 分享道,「本质上,计算机视觉与图形学正在融合。神经渲染研究的兴起,显著推动了 3D 相关论文数量的 增长。」 图像与视频合成 随着研究的不断发展,学界现在能够通过视频和图像形式更精确地呈现环境信息。对该领域的探索已成为 CVPR 2025 论文的焦点,图像和视频合成成为今年大会上最大的类别之一。 「今年商业聊天机器人的一大趋势是它们已经实现了多模态化;它们现在不仅能分析和生成文本,还能分 析和生成图像,有时还能生成视频,」Isola 解释道。「即将出现的能力是生成完整的交互式世界。CVPR 刚刚,CVPR 官方给出了最新统计,他们根据论文提交情况,总结出三大方向: 这份统计是基于全球 4 万多名作者 13008 份投稿结果产生的。相比往年,今年的投稿数量增长了 ...
Cell:突破人类视觉极限,我国学者开发红外隐形眼镜,闭眼也能“看见”红外世界
生物世界· 2025-05-22 23:46
编辑丨王多鱼 排版丨水成文 光 在向生物传递大量外部信息方面起着尤为关键的作用,使生物能够理解世界。然而,哺乳动物只能感知 电磁波谱中很小一部分作为可见光,通常在 400-700 纳米的范围内。这意味着超过一半的太阳辐射能量以 红外线 (>700 纳米) 的形式存在,对哺乳动物来说是不可察觉的。 人眼所见光谱范围的局限是由视网膜感光细胞中的感光蛋白 (Opsin) 固有的物理化学特性所决定,这导 致了大量本可能获取到的感觉信息的缺失。尽管诸如夜视镜或红外光-可见光转换器之类的工具已被用于红 外探测,但它们需要额外的能量支持,并且通常无法区分多个光谱中的红外光信息。此外,每个红外光-可 见光转换器都需要多层结构,这使得它们不透明且难以与人眼集成。 2019 年, 薛天 团队等在 Cell 发表论文 【1】 , 利用一种转换红外光成为可见光的上转换纳米材料,经特 殊修饰后注射到小鼠视网膜中,首次实现了哺乳动物的裸眼近红外 (NIR) 图像视觉能力。然而,由于手 术具有侵入性,这种方式显然不会被人们轻易接受。 因此, 通过非侵入性方式相对自由的调节人眼感光波谱范围, 甚至赋予人类近红外视觉能力,对人类而言 仍然至关 ...
韦尔股份拟更名豪威集团 凸显产业布局与战略方向
Zheng Quan Ri Bao Wang· 2025-05-20 11:48
Company Overview - Shanghai Weir Semiconductor Co., Ltd. plans to change its name to "OmniVision Integrated Circuit (Group) Co., Ltd." and its stock abbreviation to "OmniVision Group," while retaining the same stock code [1] - The name change requires approval from the company's shareholders and subsequent registration with market supervision authorities [1] - The company aims to reflect its industrial layout and strategic direction more accurately through this name change, enhancing brand influence and market impact [1] Financial Performance - In 2024, the image sensor solution business generated revenue of 19.19 billion yuan, accounting for 74.76% of the company's main business revenue [1] Industry Outlook - The image sensor industry is expected to experience significant growth driven by strong demand in downstream markets such as mobile phones and automotive electronics [2] - Increasing consumer demands for advanced camera features in smartphones and the rising requirements for environmental perception in automotive systems are key factors contributing to this growth [2]