Workflow
SORA
icon
Search documents
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 04:50
论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学陈楷锦、冯天瑞、林鸿 凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。 在 HunyuanVideo 上, EasyCache 在复杂场景下保持与原视频的一致外观,同时显著加速 1. 研究背景与动机 近年来,随着扩散模型(Diffusion Models)和扩散 Transformer(DiT)在视频生成领域的广泛应用,AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已经能够生成结构清晰、细节丰富且高度连贯的长视频内容,为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变 革。 但与此同时,推理慢、算力消耗高的问题也日益突出。以 HunyuanVideo 为例,生成一个 5 秒、720P 分辨率的视频,单次推理在单张 H20 上需要 2 小时。这种高 昂的资源代价,极大限制了扩散视频生成技术在实时互动、移动端和大规模生产场景的应用落地。 造成这一瓶颈的核心原因,是扩散模型在生成过程中需要多次迭代去噪,每一步都要进 ...
AI时代的“降本增效浪潮”到来! 微软(MSFT.US)猛裁1.5万人 从客服到编程都交给AI
Zhi Tong Cai Jing· 2025-07-10 04:05
(原标题:AI时代的"降本增效浪潮"到来! 微软(MSFT.US)猛裁1.5万人 从客服到编程都交给AI) 智通财经APP获悉,有媒体援引知情人士透露的消息报道称,AI应用软件领军者微软(MSFT.US)近期加 快步伐向员工们展示与普及人工智能应用如何改变其内部工作方式,以及如何大举提高软件工程项目进 展与各项业务经营效率。 与此同时,该公司第二轮大裁员在此期间已经开始,今年以来微软已经开启两轮大裁员行动,预计累计 裁减员工数量将高达1.5万人。微软于上周开启2025年第二轮大规模裁员行动,预计削减大约9000个就 业岗位,占其全球员工总数的约5%。 在一些华尔街分析师看来,作为全球云计算与AI应用领军者开启的连续两轮大裁员以及加码布局内部 AI工具提高效率,意味着在生成式AI应用与AI智能体驱动之下,人工智能时代的"降本增效超级浪 潮"可能已经到来。 据知情人士透露,在本周的一次演示中,微软首席商务官贾德森·阿尔托夫(Judson Althoff)表示,基于最 先进AI大模型的人工智能应用工具正在从产品销售、客户服务到大型软件工程项目落地等公司核心业 务的方方面面大举提升生产力以及经营效率。 谷歌母公司Al ...
ChatGPT背后的商业博弈:OpenAI的盈利挑战与广告业的拉锯战
Jing Ji Guan Cha Bao· 2025-07-09 07:52
Core Insights - OpenAI is struggling to find a sustainable profit model despite its integration into Microsoft's Azure ecosystem and widespread use of its technology by various enterprises [2] - The company's attempts to establish direct partnerships with advertising agencies have been hindered by existing agreements with Microsoft, which allow agencies to access OpenAI's tools without direct contracts [3][4] - OpenAI's shift towards enterprise services and subscription models has led to significant revenue growth, but the company is still facing substantial losses [8] Group 1: Challenges with Advertising Agencies - OpenAI has been actively reaching out to advertising agencies for deeper collaboration, sometimes requesting prepayments of up to one million dollars, which has deterred many agencies from direct partnerships [3] - The existing relationship with Microsoft complicates OpenAI's efforts, as agencies can utilize OpenAI's models through Microsoft without needing to engage directly with OpenAI [4] - Some independent agencies, like LERMA, are willing to sign direct agreements with OpenAI, indicating a potential avenue for collaboration with smaller firms [3] Group 2: Impact of AI on Advertising - The rise of AI tools like ChatGPT is changing how brands appear in consumer search paths, making it crucial for brands to maintain visibility within large language models (LLMs) [6] - A significant portion of U.S. consumers, 35.8%, frequently use ChatGPT, and 58% have replaced traditional search engines with AI tools, highlighting a shift in consumer behavior [6] - Leading advertising agencies are forming dedicated AI search teams to adapt to these changes, indicating a major evolution in advertising strategies [7] Group 3: OpenAI's Revenue Growth and Losses - OpenAI has introduced various subscription models, including ChatGPT Enterprise, which has helped its commercial user base exceed 3 million and annual recurring revenue to double to 10 billion dollars [8] - Despite this growth, OpenAI reported a loss of nearly 5 billion dollars in 2024, indicating that even profitable subscription models are not enough to cover operational costs [8] - The company is restructuring its enterprise subscription model to a usage-based system, which may attract more budget-sensitive clients [8] Group 4: Strategic Transformation in Advertising - OpenAI's advancements are prompting the advertising industry to rethink its role, shifting from merely placing ads to influencing how algorithms perceive brands [9] - The transition to AI as a primary marketing channel means that OpenAI is redefining how brands are seen and understood in the digital landscape [9] - The advertising industry is at a crossroads, needing to adapt to the evolving dynamics of AI and its implications for brand visibility and consumer engagement [9]
AI动态汇总:上交AI智能体表现亮眼,AlphaEvolve生成代码反超人类
China Post Securities· 2025-07-08 14:03
证券研究报告:金融工程报告 发布时间:2025-07-08 研究所 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《低估值高盈利,基本面表现占优—— 中 邮 因 子 周 报 20250706 》 - 2025.07.07 《基于宏观经济状态划分的 BL 模型与 ETF 实践》 - 2025.07.01 《反转风格显著,小市值回撤——中 邮因子周报 20250622》 - 2025.06.23 《关注基本面支撑,高波风格占优— —中邮因子周报 20250615》 - 2025.06.16 《结合基本面和量价特征的 GRU 模 型》 - 2025.06.05 《Claude 4 系列发布,谷歌上线编程 智能体 Jules——AI 动态汇总 20250526》 - 2025.05.27 《谷歌发布智能体白皮书,Manus 全面 开放注册——AI 动态汇总 20250519》 - 2025.05.20 《证监 ...
美科技巨头角逐五角大楼大单,向AI要营收 | 企服国际观察
Tai Mei Ti A P P· 2025-07-08 03:43
图片来源@unsplash 上月,OpenAI与美国国防部签署了一份价值2亿美元为期一年的合同订单。根据该合同,OpenAI将为其 提供AI工具,以应对作战和企业领域的关键国家安全挑战。美国国防部表示:"根据该合同,履约方将 开发原型前沿AI能力,以应对作战和企业领域的关键国家安全挑战。" 近年来,美国白宫及五角大楼与硅谷多家巨头科技公司签订合同协议,从颇有争议的百亿美元云计算大 单,到聚焦生成式AI在军事领域的应用拓展,市场潜力虽巨大,但诸多政策、原则、合作策略上的转 变,致使政府订单采购市场的争夺,变得愈发激烈。 拉近政府关系的,不止有老牌巨头 最先吃上政府铁饭碗的是大数据厂商Palantir。20年前成立之初,Palantir就服务于CIA等情报机关,为其 提供辅助分析服务,随后多年将其服务机构扩展到多个美国政府机关、军方,以及商业领域。 得益于这一点,Palantir近些年持续实现业务收入强劲增长,2024年至今,该公司股价实现飙升,最高 涨幅超过7倍。其收入60%来自于政府业务,作为Project Maven项目的主要承接单位,Palantir在2024年 与美国国防部签署了更大的合同,以扩展该项目 ...
“反击”马斯克,奥特曼说OpenAI有“好得多”的自动驾驶技术
3 6 Ke· 2025-07-07 00:32
OpenAI的CEO山姆·奥特曼和特斯拉CEO马斯克的矛盾,已经是硅谷热门的八卦。 两人都是OpenAI的联合创始人,但是奥特曼将OpenAI转向商业化运营之后,马斯克指责其背离初心,并起诉他违背创始协议。另外,马斯克还成立xAI, 和OpenAI直接竞争。 奥特曼也奋起反击,公布邮件显示,马斯克试图掌控OpenAI,遭到拒绝后才不断阻挠。 奥特曼可能还酝酿了一个"以其之道还施彼身"的反击举措,那就是研发自动驾驶,和特斯拉FSD竞争。 最近,奥特曼在做客了自己兄弟杰克·奥特曼的脱口秀,不知是否和兄弟聊天说漏了嘴。 根据纽约时报旗下DealBook的消息,该技术尚处于早期阶段,商业化也还要很远。 他说: 我想我们有一些新技术,可以为普通汽车提供自动驾驶,而且比当前技术要好得多。 I think we have some new technology thatcould just do self-driving for standard carsway better than any current approach has worked. 这里说比"当前技术""好得多",当然也包括马斯克的FSD。 不过,奥特曼 ...
视频模型赛道“热闹”起来了,但变现仍不容易
Di Yi Cai Jing· 2025-07-05 08:19
视频大模型行业暂时不会出现一家独大的局面。 近一个月的视频模型产品更新之前,Sora的热度已带动一批新品面世。包括2024年上半年的爱诗科技PixVerse、Runway Gen-3、Luma Dream Machine,下半 年的生数科技Vidu、智谱清影、字节跳动PixelDance、MiniMax海螺等。 一方面,视频模型你追我赶。据AGI-Eval(上海交通大学、同济大学等高校和机构合作发布的大模型评测社区),2024年12月,PixVerse-V3、可灵1.5、 Video-01的得分(评测维度包括视频-文本一致性、视频质量、运动质量等)超越Sora。 但同时,受限于技术成熟度、商业化、成本高等因素,视频模型的创业热度并不及AI应用层,主要由大型互联网/科技企业组成,由爱诗科技、生数科技、 Pika、Runway、MiniMax等明星创业公司补充。 此前,MiniMax创始人闫俊杰表示,视频类工作复杂度比文本更难,上下文文本很长,一个5秒的视频就有几M(兆字节,MB)大小,但文本领域,5秒看 100个字的大小可能都不到1K(千字节,KB),这是几千倍的存储差距。该差距带来的挑战便是如果通过基本文本构 ...
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Xiaoxiao Long等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 本综述聚焦具身智能在机器人研究中的前沿进展,指出实现强大具身智能的关键在于物理模拟器与世界模 型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部 表征能力以支持预测规划与决策。 文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨 了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新 文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey, 旨在为具身 AI 系统的发展提供全面视角并明确未来挑战。 一些介绍 随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研 ...
可灵悄悄赚了1个亿
36氪· 2025-07-03 23:59
Core Viewpoint - The commercialization of video generation has made significant progress, with revenues from marketing and promotion now balancing out with investments [1][24]. Group 1: AI Video Generation Trends - AI-generated ASMR and animal sports videos have gained immense popularity on short video platforms, attracting millions of likes and shares [2][3]. - The release of Google's video generation model Veo3 in May has been a game-changer, enabling high-quality AI videos with synchronized audio, thus transforming content creation [5][11]. - The rapid advancement of AI content creation tools has led to a surge in creators leveraging these technologies, with many accounts emerging on short video platforms [3][6]. Group 2: Market Dynamics and Competition - The competitive landscape is evolving, with various players like 可灵 and 即梦 making strides in the AI video generation space, alongside Google's efforts [10][14]. - 可灵's video generation model has achieved over 30% market share, surpassing competitors like Runway and Veo-2 [14]. - The industry is witnessing a shift in user preferences, with creators increasingly relying on video generation tools for efficiency, as evidenced by a threefold increase in download rates for generated images [15][19]. Group 3: Financial Performance and Projections - 可灵 is projected to achieve an annual recurring revenue (ARR) exceeding $100 million by March 2025, outpacing other AI products like Cursor [17][19]. - The annual revenue for leading video generation products is expected to reach $1 billion this year, with potential growth to $5-10 billion next year [19]. - Despite the positive outlook, industry leaders acknowledge that the commercialization process is still in its early stages, with many challenges remaining [25][26].
论坛| 未可知 x 容诚: AI技术在基金行业的创新应用与效率提升之道
近日, 未可知人工智能研究院副院长张孜铭在容诚会计师事务所举办的金融论坛上发表主题演讲,深入探讨了AI技术在基金行业的 创新应用与效率提升之道。 作为《DeepSeek使用指南》的作者,张孜铭从技术演进、行业实践和未来趋势三个维度,为现场观众 呈现了一场精彩纷呈的AI赋能金融盛宴。 演讲伊始,张孜铭系统梳理了AI技术的发展历程,着重分析了生成式AI与传统决策式AI的本质区别。他指出,当前以DeepSeek、 Sora为代表的生成式AI正在重塑内容生产方式,而新一代AI智能体则实现了从"回答问题"到"完成任务"的跨越式发展。 在基金行 业,这些技术已经深度渗透到投研、营销、运营等各个环节。 例如,AI文本工具可以辅助撰写专业投资报告,视频生成技术为产品 营销提供了全新可能,而智能体更是在数据处理、客户服务等方面展现出惊人的效率。 针对基金行业的具体应用,张孜铭提炼出三大提效方向:首先是信息处理的高效化,通过秘塔AI等工具可将信息搜集时间缩短80%; 其次是内容生产的自动化,利用提示词工程能快速生成营销文案和PPT;最后是业务流程的智能化,数字员工可以精准完成净值核对 等重复性工作。他特别分享了某大型基金公司的案 ...