Imagen

Search documents
The Great Voyage
Google DeepMind· 2025-07-16 14:23
Watch a short 3-minute film made with our AI models by our in-house creative team, inspired by the age of Victorian silent cinema. Here's more detail on how it was made: Inspiration & Fine-Tuning: The team found a batch of 1800s photos at a thrift store that was then used to LoRA fine-tune our image generation model Imagen to generate new images in the same vintage style. If you want to try this yourself, you can also use "Style Ingredients" in our filmmaking tool Flow. This allows you to directly fine-tune ...
李飞飞:高校学生应追逐AI“北极星”问题
Hu Xiu· 2025-07-08 08:15
Core Insights - The article highlights the journey of Fei-Fei Li from her early academic achievements to her current role as CEO of a company, emphasizing her passion for starting from scratch and building innovative solutions in AI [1][2][24]. Group 1: ImageNet and AI Development - ImageNet was conceived around 18 years ago to address the lack of data in AI and machine learning, particularly in computer vision, which was essential for the development of algorithms [4][6]. - The project aimed to download 1 billion images from the internet to create a global visual classification system, which became a cornerstone for training and testing machine learning algorithms [6][7]. - The breakthrough moment for ImageNet came in 2012 with the introduction of AlexNet, which utilized convolutional neural networks (CNN) and significantly reduced the error rate in image recognition tasks [8][10]. Group 2: Vision and Future of AI - Li emphasizes the importance of spatial intelligence for achieving general artificial intelligence (AGI), arguing that without it, AGI remains incomplete [14]. - The evolution of AI has progressed from object recognition to scene understanding and now to generating 3D worlds, which presents a new set of challenges [12][16]. - The integration of language models and visual understanding is seen as a critical area for future research and application, particularly in fields like robotics and the metaverse [20][21]. Group 3: Advice for Students and Researchers - Li advises students to pursue fundamental "North Star" problems in AI that are not necessarily tied to industrial applications, as academic resources have shifted significantly [34][35]. - She encourages interdisciplinary research in AI, particularly in scientific discovery, and highlights the importance of curiosity and problem-solving in graduate studies [38][39]. - The article underscores the need for a new generation of researchers who are fearless and willing to tackle complex challenges in AI [32][33].
李飞飞最新对话
投资界· 2025-07-04 12:05
AGI最新判断。 作者 | 闻乐 不圆 来源 | 量子位 (ID:QbitAI) 在我看来,没有空间智能,通用人工智能就不完整。 这是"AI教母"李飞飞在最新访谈中对AGI的判断——是的,李飞飞也开始谈论AGI了。 不过她有自己的表述,从进入人工智能领域开始,她就确定了她终身奋斗的梦想: 让智能体能够讲述世界的故事 。 而这,离不开 空间智能 。 正如她本人所说: 我整个职业生涯都在追逐那些极其困难、近乎疯狂的问题。 李飞飞如今聚焦于空间智能领域——这个人工智能最艰难的领域之一。 她认为 3D世界建模 对于实现AGI至关重要,并表示: 理解三维世界、生成三维世界、推理三维世界、在三维世界中做事,是人工智能的基本问题。 她的目标是创建一个超越平面像素、跨越语言障碍、能够真正捕捉三维世界结构和空间智能的 世界模型 。 在这次对话中,她从ImageNet的起源和影响说起,讲述了AI范式转变与关键突破,并提到了3D建模面临的挑战以及空间智能的数据 缺失问题。 量子位翻译并总结了全文,让我们一起来学习李飞飞的最新认知和分享。 ImageNet为现代计算机视觉搭建数据骨架 Q:你最早创建的项目之一是2009年的Image ...
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 04:40
不圆 发自 凹非寺 量子位 | 公众号 QbitAI AI的"创造力"居然是一种技术缺陷?? 两位 物理学家 以 生物系统自我组装的过程 为参考,提出并验证了一个大胆的假设—— 扩散模型的去噪过程就像细胞的分化重组,图像生成AI无法精确"复制"的原因也可能和它 的"基因"(架构)有关。 在一篇已被ICML 2025接收的论文中,这两位研究者通过建立有扩散模型特性的数学模型证 明: AI的"创造力"本质上是一种确定性过程——是模型架构直接且必然产生的结果。 他们的假设从何而来?他们又做了什么来证明这个假设? 让我们一起来看。 事情的起因:算法的独特创造力 人工智能系统在进化的过程中越来越模仿人类的思维能力,并展现出了一种独特又怪诞的"创 造力"天赋。 (所谓AI味?) 以扩散模型为例,作为DALL·E、Imagen和Stable Diffusion等图像生成工具的核心,其设 计初衷是精确拟合训练数据的分布,生成与训练图像 完全一致 的副本。 然而在实践中,它们似乎在 即兴创作 ,将图像中的元素融合以创造出新的东西——不是无 意义的彩色团块,而是具有语义意义的连贯图像。 是什么赋予了它们即兴发挥的能力? 巴黎高等 ...
李飞飞曝创业招人标准!总结AI 大牛学生经验,告诫博士们不要做堆算力项目
AI前线· 2025-07-03 08:26
编辑 | 褚杏娟 你说得对,我们大约在 18 年前就开始构想 ImageNet 这个项目。时间过得真快!那时我还是普林斯 顿大学一年级的助理教授。那时的人工智能和机器学习领域与现在完全不同,数据非常稀缺,在计算 机视觉领域,算法几乎是行不通的。那时也没有相关产业发展,公众根本不知道"人工智能"这个概 念。 但我们当时的那群人,从 AI 的奠基人 John McCarthy,到后来像 Geoffrey Hinton 这样的研究者, 都怀着一个共同的 AI 梦想:我们真的想让机器学会思考和工作。而对我个人而言,我的梦想是让机 器能够"看见",因为视觉是智能的重要基石。视觉智能不仅仅是感知,它更在于理解世界并在世界中 采取行动。 主持人 :后来很久才出现了一些有前景的算法。直到 2012 年,AlexNet 出现了。那才是实现 AI 的 第二个关键因素:投入足够的计算资源。当你看到你播下的数据种子开始发挥作用,开始取得更多科 研突破时,那一刻是什么感觉? 李飞飞 :没错,2009 年我们在 CVPR 会议上发表了一篇很简短的论文。2009 年至 2012 年这三年 里,我们坚信数据将驱动人工智能的发展,但当时几乎看 ...
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 09:49
来源丨Web3天空之城( Web3SkyCity ) 著名AI科学家李飞飞 这一次在YC创业学院峰会的最新访谈深入探讨了她的职业生涯与前瞻思考。她 分享了创办ImageNet,这一引爆深度学习革命的关键项目的幕后故事,并阐述了计算机视觉从物体 识别到场景叙事,再到她当前所专注的"空间智能"的演进路径。 李飞飞认为,理解和交互于三维世界是实现通用人工智能不可或缺的一环,并为此创立了World Labs。访谈还触及了她的个人经历,从移民少年到创办洗衣店,再到成为顶尖学者和企业家的历程, 强调了"智识上的无畏"是推动创新和个人成长的核心动力。 核心观点 ImageNet的诞生与深度学习的黎明 李飞飞 : 我整个职业生涯都在追逐那些极其困难,近乎妄想的问题。对我来说,没有空间智能的AGI 是不完整的。我想解决这个问题。我就是喜欢当企业家。忘记你过去所做的一切。忘记别人对你的看 法。埋头苦干,努力建设。那是我的舒适区。 主持人 : 所以,我非常兴奋能邀请到李飞飞博士。她在人工智能领域有着非常长的职业生涯。 我相信你们很多人都认识她,对吧?请举手。我也认识。她被称为人工智能教母。飞飞你创建的第一 个项目之一是2009年的 ...
李飞飞最新访谈:没有空间智能,AGI就不完整
量子位· 2025-07-02 09:33
Core Viewpoint - The article emphasizes the importance of spatial intelligence in achieving Artificial General Intelligence (AGI), as articulated by AI expert Fei-Fei Li, who believes that understanding and interacting with the 3D world is fundamental to AI development [1][4][29]. Group 1: Spatial Intelligence and AGI - Fei-Fei Li asserts that without spatial intelligence, AGI is incomplete, highlighting the necessity of creating world models that capture the structure and dynamics of the 3D world [29]. - She identifies 3D world modeling as a critical challenge for AI, stating that understanding, generating, reasoning, and acting within a 3D environment are essential problems for AI [7][29]. - The pursuit of spatial intelligence is framed as a lifelong goal for Li, who aims to develop algorithms that can narrate the stories of the world by understanding complex scenes [20][29]. Group 2: Historical Context and Breakthroughs - The article discusses the inception of ImageNet, a pivotal project initiated by Li, which aimed to create a vast dataset for training AI in visual recognition, addressing the data scarcity issue in the early days of AI [11][14]. - The success of ImageNet led to significant advancements in computer vision, particularly with the introduction of AlexNet, which utilized convolutional neural networks and marked a turning point in AI capabilities [19][22]. - Li reflects on the evolution of AI from object recognition to scene understanding, emphasizing the importance of integrating natural language with visual signals to enable AI to describe complex environments [15][20]. Group 3: Future Directions and Applications - Li expresses excitement about the potential applications of spatial intelligence in various fields, including design, architecture, gaming, and robotics, indicating a broad utility for world models [35]. - The article mentions the challenges of data acquisition for spatial intelligence, noting that while language data is abundant online, spatial data is less accessible and often resides within human cognition [33][50]. - Li's new venture, World Labs, aims to tackle these challenges by developing innovative solutions for understanding and generating 3D environments, indicating a commitment to advancing the field of AI [29][35].
产业观察:【AI产业跟踪~海外】特斯拉Robotaxi上线,Meta AI眼镜能拍3K视频
GUOTAI HAITONG SECURITIES· 2025-07-02 08:46
产业观察 【AI 产业跟踪-海外】特斯拉 Robotaxi 上线,产业研究中心 | Meta AI 眼镜能拍 3K 视频 | CS | 李嘉琪(分析师) | | --- | --- | --- | | 摘要:产业最新趋势跟踪,点评产业最新风向 | 8 | 021-38676666 | | ○ AI 行业动态 | 登记编号 | S0880524040001 | | Meta 从 OpenAI 挖走四位华人学者 | | | | Delphi 拿下红杉领投的 1600 万美元 A 轮 | CS | 刘峰(研究助理) | | OpenAI 前 CTO 的 Thinking Machines Lab 成史上最大种子轮 | 2 | 021-38676666 | | ○ AI 应用资讯 | 登记编号 | S0880124060013 | | Anthropic 重磅更新 | | | | 谷歌推出开源的 Gemini CLI | | | | 谷歌 AlphaGenome 横空出世 | | | | 谷歌 Gemini 家族新成员 | | | | 谷歌 Imagen 4 / Ultra 上线 AI Studio | | | OD ...
全球AI周报:蚂蚁集团推出AI健康应用“AQ”,快手发布AI微电影作品集《新世界加载中-20250630
Tianfeng Securities· 2025-06-30 11:36
证券研究报告 2025年06月30日 海外行业报告:行业动态研究 蚂蚁集团推出 AI 健康应用"AQ",快手发布AI 微电影作品集《新世界加载中》 全球AI周报 作者: 分析师 孔蓉 SAC执业证书编号:S1110521020002 分析师 李泽宇 SAC执业证书编号:S1110520110002 分析师 樊程安吉 SAC执业证书编号:S1110524080001 分析师 杨雨辰 SAC执业证书编号:S1110521110001 分析师 刘诗雨 SAC执业证书编号:S1110524120001 请务必阅读正文之后的信息披露和免责申明 1 ◼ 重点公司财报AI进展 摘要 ➢ MU美光科技:第三季度业绩超预期,业务多元增长,发布第四季度积极指引。2025 财年第三季度总营收 93 亿美元(超彭博一致预期5.09%),创季度纪录,环比增长 15%,同比增长 37%。DRAM 营收 71 亿美元(占总 营收 76%),同比增长 51%,环比增长 15%;NAND 营收 22 亿美元(占 23%),同比增长 4%,环比增长 16%。毛利率 39%,环比提高 110 个基点;运营现金流超 46 亿美元,自由现金流超 19 ...
传媒行业周报:6月158款游戏版号获批,关注暑期游戏及影视市场表现-20250629
Guoyuan Securities· 2025-06-29 13:44
[Table_Main] 行业研究|可选消费|媒体Ⅱ 证券研究报告 媒体Ⅱ行业周报、月报 2025 年 06 月 29 日 [Table_Title] 6 月 158 款游戏版号获批,关注暑期游戏及 影视市场表现 ——传媒行业周报 [Table_Summary] 报告要点: 市场表现 周度涨跌情况(2025.6.21-2025.6.27,下同):传媒行业(申万)上涨 3.07%,排名行业第 18 名,同期沪深 300 涨 1.95%,上证指数涨 1.91%,深证成指涨 3.73%,创业板指涨 5.69%,恒生科技指数涨 4.06%。本周,传媒(申万)行业中,欢瑞世纪、冰川网络、卓创资 讯、龙韵股份和 ST 广网表现较优,恒生科技成分股中传媒行业快手- W(周涨幅 11.25%)、哔哩哔哩-W(周涨幅 6.45%)表现较好。 行业重点数据及动态更新 AI:最新一周(6.20 至 6.26)七麦预估 iphone 端 Deepseek 下载量 为 92.38 万,环比下滑 2.01%,豆包周下载量为 209.94 万,环比上 升 1.58%,阿里夸克周度下载量为 141.47 万次,环比增加 40.55%, 腾讯 ...