多模态

Search documents
中文在线(300364):海外短剧规模放量,多模态AI应用商业化加速
China Post Securities· 2025-07-04 02:49
股票投资评级 资料来源:聚源,中邮证券研究所 | 公司基本情况 | | --- | | 最新收盘价(元) | 24.90 | | --- | --- | | 总股本/流通股本(亿股)7.29 / 6.60 | | | 总市值/流通市值(亿元)181 / 164 | | | 52 周内最高/最低价 | 33.66 / 16.14 | | 资产负债率(%) | 38.5% | | 市盈率 | -74.80 | | 第一大股东 | 童之磊 | 研究所 证券研究报告:传媒 | 公司点评报告 分析师:王晓萱 SAC 登记编号:S1340522080005 Email:wangxiaoxuan@cnpsec.com 中文在线(300364) 海外短剧规模放量,多模态 AI 应用商业化加速 ⚫ 事件回顾 2025 年 4 月 29 日,公司发布 2024 年年报及 2025 年一季报。 2024 年公司实现营业收入 11.59 亿元,同比下降 17.73%;归母净利润 -2.43 亿元,同比下降 371.58%;扣非后归母净利润为-2.71 亿元,同 比下降 605.70%。2025 年一季度公司实现营业收入 2.33 亿 ...
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自动驾驶与机器人 的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的研究,该模型将深度融合视觉-语 言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力。 核心职责包括 前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将 探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。 核心模型能力攻关:主导模型在以下关键能力上的突破: 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的 交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并 探索其在自动驾驶和通用机器人领域的统一应用潜力。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对 ...
中美AI差距有多大,AI竞争焦点在哪?《全球人工智能科研态势报告》全球首发
Tai Mei Ti A P P· 2025-07-03 10:36
Core Insights - The report titled "Global AI Research Landscape Report (2015-2024)" analyzes the evolution of AI research over the past decade, highlighting the competitive landscape between China and the United States in AI talent and publication output [2][7]. Group 1: AI Research Trends - The report identifies four distinct phases in AI research: initial phase (2015-2016), rapid development phase (2017-2019), maturity peak phase (2020-2023), and adjustment phase (2024) [4][5]. - The number of AI papers published globally increased significantly, with a peak of 17,074 papers in 2023, representing nearly a fourfold increase from 2015 [5][6]. - The year 2024 is expected to see a decline in publication volume to 14,786 papers, indicating a shift towards more specialized and application-oriented research [6]. Group 2: Talent Distribution - China has emerged as the second-largest hub for AI talent, with a total of 52,000 researchers by 2024, growing at a compound annual growth rate of 28.7% since 2015 [8]. - The United States leads with over 63,000 AI researchers, with significant contributions from institutions like Stanford and MIT, as well as tech giants like Google and Microsoft [8][9]. - Chinese institutions such as the Chinese Academy of Sciences, Tsinghua University, and Peking University are leading in terms of publication output and talent concentration [7][9]. Group 3: Institutional and Corporate Performance - The Chinese Academy of Sciences published 4,639 top-tier papers, while Tsinghua University and Peking University followed closely, showcasing China's institutional strength in AI research [7][9]. - In contrast, U.S. companies like Google, Microsoft, and Meta have a significantly higher average publication output compared to their Chinese counterparts, reflecting a disparity in research investment and output capabilities [9][10]. - The top three U.S. companies published 5,896 papers, which is 1.8 times the output of the top three Chinese companies [9][10]. Group 4: Gender Disparity in AI Talent - The report highlights a significant gender imbalance in AI research, with women making up only 9.3% of AI talent in China compared to 20.1% in the U.S. [12][13]. - Chinese institutions like Tsinghua University and Peking University have low female representation in AI, at 7.88% and 9.18% respectively, compared to 25%-30% in top U.S. institutions [12][13]. Group 5: Future Trends in AI Research - The report indicates that "deep learning" has been the dominant focus in AI research over the past decade, but its growth rate is expected to slow down, suggesting a need for new approaches [14][15]. - Emerging technologies such as "Transformers" are gaining traction, particularly in natural language processing and multimodal AI, indicating a shift in research focus [15]. - The integration of traditional AI fields with deep learning techniques is becoming more prevalent, reflecting a trend towards collaborative and interdisciplinary research [15].
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
量子位· 2025-07-03 09:00
GenieBlue团队 投稿 量子位 | 公众号 QbitAI 在AI迈入多模态时代的当下, "让大模型上手机" 成为产业落地的焦点。 现有MLLM在手机端部署时常面临两大难题: vivo AI研究院联合港中文以及上交团队 为了攻克这些难题, 从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言 能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。目前已被ICCV 2025接收。 主要贡献和技术亮点 1、现有端侧LLM在支持多模态功能后,纯语言任务准确率下降超10%。GenieBlue通过冻结原始LLM参数,并引入复制的Transformer层和 轻量化的LoRA模块,在多模态训练的过程中保留原始的语言能力。 2、通过大规模微调,GenieBlue达到与主流MLLM相媲美的多模态能力,并完全保留原始纯语言性能。 3、避开当前NPU不支持的MoE架构,采用不共享基座的推理策略。在搭载高通骁龙8 Elite(第四代)芯片的手机上实现流畅运行。 技术背景 1、当前的端侧MLLM无法取得令人满意的纯语言能力 在MATH(客观难题)、AlignBench和MT- ...
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位· 2025-07-03 06:58
就在刚刚,Gemini模型行为产品负责人 Ani Baddepudi 在谷歌自家的开发者频道开启了爆料模式。 一水 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 一次性揭秘Gemini多模态技术! 他和OpenAI前员工、现谷歌AI Studio产品负责人 (Logan Kilpatrick,右) 探讨了诸多众人好奇已久的问题: 一言以蔽之,整个谈话几乎都围绕着 Gemini多模态 展开,包括其背后设计理念、当前应用以及未来发展方向。 之所以这场谈话值得关注,实在是因为Gemini多模态过于响当当和重要了。 2023年12月,谷歌原生多模态Gemini 1.0模型正式上线,一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。 而最新的Gemini 2.5 Pro(0605) ,不仅在代码、推理等任务上更上一层楼,而且还拿下视觉能力第一,可以说夯实了谷歌在多模态领域的 领先地位。 此时回看Gemini当时的一些设计理念,会发现其前瞻性与创新性不仅为后续的发展奠定了坚实基础,而且对未来仍具有指导意义。 敲黑板,整场谈话干货满满,咱们这就开始~ 为啥Gemini一开始就被设计为多模态? 一个智能体的 ...
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
机器之心· 2025-07-03 03:26
本文第一作者魏熙林,复旦大学计算机科学技术学院人工智能方向博士生,研究方向是多模态大模型、高效长上下文;目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。 一、背景介绍 虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。 VideoRoPE++ 这项工作首先进行了全面分析,确定了将 RoPE 有效应用于视频所需的五个关键特性,而先前的工作并未充分考虑这些特性。 作为分析的一部分,这项工作构建了一个全新的评测基准 ——V-RULER,其中的子任务 "带干扰项的大海捞针(Needle Retrieval under Distractor, NRD)" 表明: 当前 RoPE 变体在缺乏合理时间维度建模策略时,容易被周期性干扰项误导,表现不稳定。 左图:为了展示频率分配的重要性,基于 VIAH(a),作者提出了一个更具挑战性的 benchmark: V-RULER,子任务 Needle Retrieval under Distractors 如(b)所 示,其中插入了相似图像作为干扰项。右图:与 M- ...
大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知
3 6 Ke· 2025-07-03 02:53
Group 1 - The event aims to promote academic exchange and innovation collaboration among global youth AI researchers, responding to the theme of the World Artificial Intelligence Conference [3] - The initiative seeks to provide a high-standard academic exchange platform for young scholars and technology developers, facilitating the collision of academic ideas and the transformation and dissemination of research results [3] Group 2 - The call for submissions focuses on cutting-edge explorations in the field of artificial intelligence, covering areas such as large models, generative AI, computer vision, reinforcement learning, AI ethics, and interdisciplinary applications [4][5][6][7][8] - Submissions can take the form of academic posters or preprint papers, with specific guidelines for each format, including visual presentation requirements and structural expectations for research papers [8][9] Group 3 - Selected works will be showcased at the World Artificial Intelligence Conference, with opportunities for authors to present their findings and engage with industry leaders [10] - Authors may apply for direct recommendations to top international journals, including Nature Machine Intelligence, with expedited review processes for recommended papers [10][14] Group 4 - Submission materials must include a title, author information, and either a poster design file or a full preprint paper, along with a brief research highlight summary [11] - The submission deadline is July 10, 2025, with notifications of review results by July 15, 2025, and the conference scheduled for July 27, 2025, in Shanghai [12]
谷歌推出Gemini Robotics On-Device 大模型,快手开源 keye-VL 多模态模型:AI 动态汇总
China Post Securities· 2025-07-02 13:08
证券研究报告:金融工程报告 研究所 快手于 2025 年 6 月 26 日开源的 Kwai Keye-VL 多模态大模型, 标志着国产多模态技术在视频理解与复杂推理领域的重大突破。该模 型基于 Qwen3-8B 语言模型架构,融合了 SigLIP 初始化的视觉编码 器,通过创新的 3D RoPE(旋转位置编码)技术实现对文本、图像和 视频信息的统一处理,尤其擅长捕捉视频时序变化与动态分辨率输 入,成为全球首个在高考数学卷中取得 140 分成绩的多模态模型。 ⚫ 谷歌开源 AI Agent 框架 Gemini CLI 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《基于宏观经济状态划分的 BL 模型与 ETF 实践》 - 2025.07.01 《反转风格显著,小市值回撤——中 邮因子周报 20250622》 - 2025.06.23 《关注基本面支撑,高波风格占优— —中邮因子周报 20250615》 ...
一文看懂2025智能机器人关键技术大会(IRCTC)全景!专家报告、学术征文、青年交流全揭晓!
机器人圈· 2025-07-02 10:50
详细会议介绍参看往期文章: (点击蓝字跳转) 展览展示|抢位2025智能机器人关键技术大会!高曝光商务合作虚位以待,共赴解锁新机遇 9大期刊联合征文|投稿2025智能机器人关键技术大会,年底正刊发表! 由《机器人技术与应用》杂志社发起,中国自动化学会机器人专业委员会,中国人工智能学会智能机器人专业委员会、 中国仪器仪表学会智能车与机器人专委会和 中国工程建设焊接协会机器人及智能焊接专业委员会 联合支持的" 2025智 能机器人关键技术大会 "将于 2025年7月22-24日 在 齐齐哈尔市 举办,大会以" 具身智能与多模态交互技术的融 合与突破 "为主题,围绕机器人及人工智能领域前沿技术、关键共性技术、产业化路径与标准化建设和跨学科融合等领 域展开交流。 为了激发青年科研人员的创新活力,促进学术交流和思想碰撞,大会将设立 青年硕士博士快闪论坛 ,为青年研究人 员提供一个展示研究成果、分享研究经验的平台,鼓励他们勇于探索未知领域,推动智能机器人技术的发展。 本次大会将携手行业顶流期刊联合征文,录用稿件均将于正刊发表,并于 2025年12月底前 出 版 ,诚邀大家积极踊 跃投稿!我们也热忱欢迎国内机器人领域相关企 ...
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 04:46
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果一个视觉语言模型(VLM)只会"看",那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有 深度思考 的强推理能力。 而就在刚刚, 智谱 发布并开源了一个仅9B大小的模型—— GLM-4.1V-9B-Thinking ,在28项评测中一举拿下 23个SOTA! 毫无悬念地成为10B级别里 效果最好的VLM模型 ;而在18项评测中,它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下,甚至是超 越的程度。 整体来看,GLM-4.1V-9B-Thinking之所以能够这般"以小搏大",核心原因就是 会思考 : 引入了 思维链 (Chain-of-Thought)推理机制,并通过 课程采样强化学习 (RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。 值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了 10亿元投资 ,并将于近期完成首次交割。 评测是一方面,但也正如我们刚才提到的,现在的A ...