多模态大模型

Search documents
星宸科技(301536) - 301536星宸科技投资者关系管理信息20250430
2025-04-30 00:02
Group 1: Business Performance - In Q1 2025, all business lines achieved over 20% year-on-year growth, with significant contributions from smart IoT and automotive sectors [2] - For the full year 2024, the company reported a net profit of approximately CNY 256 million, a year-on-year increase of about 25.18% [3] - Q1 2025 net profit was approximately CNY 51.18 million, reflecting a year-on-year growth of about 0.48% [3] Group 2: Product Development and Market Strategy - The company has launched the SSC309QL SoC chip for AI glasses, with expected shipments in the second half of 2025 [3] - In the humanoid robot sector, the company achieved over threefold growth in both shipment volume and revenue in 2024 compared to 2023 [4] - The company is focusing on advanced IP technologies, including high-performance chips for various applications such as smart robots and smart glasses [5] Group 3: Research and Development Investment - In 2024, R&D investment was approximately CNY 602 million, a year-on-year increase of about 21.95%, with an R&D investment rate of approximately 25.59% [6] - Q1 2025 R&D investment was about CNY 168 million, reflecting a year-on-year increase of approximately 19.8% [6] Group 4: Market Position and Future Outlook - The company has established a global sales strategy, with over half of sales coming from overseas markets [7] - The company aims to become a leading SoC chip supplier in the smart robot industry within the next two to three years [5] - The future development of AI SoC chips is expected to focus on higher efficiency, lower power consumption, and smaller sizes to meet growing smart device demands [11]
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
机器之心· 2025-04-29 03:22
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人 曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存 占用逐渐增加,这导致了多模态大模型推理效率的降低。现有的方法通过减少预填充(prefill)阶段的视觉 token 冗余来实现推理加速。遗憾的是,这种在预填充 阶段实现的视觉 token 稀疏化所带来的加速优势,在解码阶段会逐渐减弱。当解码输出的文本 token 数量增多时,这些方法仍然会遇到性能瓶颈。 为了解决上述问题,团队创新性地提出了一个全新的动态视觉 - 文本上下文稀疏化推理加速框架 ——Dynamic-LLaVA。该框架针对多模态大模型在不同推理模式 下(包括预填充阶段以及有无 KV Cache 的解码阶段),设计了定制化的稀疏化推理方案,以实现多模态大模型的高效推理。实验结果表明,Dynamic-LLaVA 在 几乎不损失视觉理解和生成能力的前提 ...
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
量子位· 2025-04-28 03:43
人类在解答几何问题时,首先会识别所需的几何原理并通过灵活应用它们来推导出答案。 然而,目前的评测方法多集中于最终答案的正确性或简单地对每个推理步骤进行打分,而 忽视了推理过程中的关键因素:几何原理的识别和 应用 。 尽管有研究发现模型的对几何图的感知能力不足限制了其后续推理,但实验发现,几何原理与图像中几何元素的正确对应及应用,是多模态大 模型推理的另一大瓶颈。 为填补这一空白,GeoSense出现了,为在复杂视觉场景中的推理能力提升提供了新的方向。 GeoSense团队 投稿 量子位 | 公众号 QbitAI 多模态大模型几何解题哪家强? 首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了! GeoSense ,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码均已开源。 其背后团队来自 淘天集团算法技术-未来生活实验室团队。 5层知识架构+1789道几何问题 GeoSense旨在系统评估多模态大模型识别和应用几何原理来解决几何问题的能力。 该基准建立了包含定义、定理和公式等几何原理的5层知识架构,覆盖平面几何和立体几何,支持中英双语;精心构建并人工详细标注了 ...
李彦宏:DeepSeek不是万能,最大问题是慢和贵,大多数大模型速度比DeepSeek满血版更快,价格更低【附多模态大模型行业市场分析】
Sou Hu Cai Jing· 2025-04-27 06:28
(图片来源:摄图网) 4月25日,百度创始人李彦宏在reate2025百度AI开发者大会上发表了题为《模型的世界 应用的天下》的演 讲。他在演讲中称 "DeepSeek不是万能的",并指出了DeepSeek目前存在的一些不足之处。他认为,多模态 将是未来基础模型的标配据。 今年年初,DeepSeek的横空出世宛如一颗重磅炸弹,在AI领域激起千层浪。它凭借低成本的AI模型,迅速 在全球范围内引发轰动。1月27日,DeepSeek应用如同脱缰野马,登顶15个国家和地区的苹果应用商店免费 APP下载排行榜,在美国市场力压ChatGPT、Threads等一众知名产品,荣登美区苹果App Store免费榜榜首, 成为史上最快达成日活跃用户数突破3000万大关的应用,亦是首个同期在中国和美区苹果App Store占据榜 首的中国应用。 李彦宏直言"DeepSeek不是万能的"。他指出,DeepSeek目前仅能处理文本,对于图片、音频、视频等多媒 体内容的理解和生成却无能为力。而我们的很多百度智能云客户,都需要这种多模理解和生成能力。 李彦宏指出,幻觉率较高也是DeepSeek的一大软肋。在很多场合不能放心使用,如果在电商 ...
【干货】多模态大模型产业链全景梳理及区域热力地图
Qian Zhan Wang· 2025-04-27 01:12
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 本文核心数据:多模态大模型产业链;多模态大模型产业全景图谱 多模态大模型产业链全景梳理 多模态大模型产业链是一个庞大而复杂的系统,涵盖了从硬件设施到软件开发的各个环节,主要包括基础 层、模型层和应用层。其中,基础层主要包括硬件和基础软件,模型层主要是多模态大模型的种类,包括 CLIP、BLIP、BLIP-2、dreamLLM、LLaMA、LLaVA、flamingo、mini-GPT4等,应用层则是指大模型结合 行业的进一步升级应用形成的行业大模型,主要包括生产制造领域、生活娱乐领域和公共服务领域等。 中国大模型产业链上游基础层硬件环节参与者有英特尔、英伟达等,基础软件环节参与者有华为、腾讯、紫 光同创;中游模型层参与者有OpenAI、Meta、Googl ...
蚂蚁集团副总裁、前基础大模型负责人徐鹏离职
证券时报· 2025-04-14 11:01
此前在2024年12月,蚂蚁集团内部信官宣了新一轮组织架构调整,成立两大核心事业群数字支付事业群与支付 宝事业群,并以轮值总裁制推动公司战略的深化实施。 据澎湃新闻报道,蚂蚁集团副总裁、前基础大模型负责人徐鹏近日已离职。据悉,徐鹏是前百灵 大模型一号位,花名为无改。 记者向蚂蚁集团求证此消息,蚂蚁集团未予置评。 此前在2024年1月,有媒体报道称,蚂蚁集团成立AI创新研发与应用部门NextEvo,由徐鹏担任负责人,承担 了蚂蚁AI的所有核心技术研发,包括蚂蚁百灵大模型的所有研发工作。 公开资料显示,徐鹏一直从事人工智能领域技术研究,曾在谷歌工作11年,负责和领导了谷歌翻译的核心技术 研发,并参与谷歌显示广告系统的算法研发。此外,徐鹏领导实现了深度学习模型在谷歌的首次实时应用,改 善了基于关键词的广告质量。 据了解,NextEvo为蚂蚁内部的AI精英部门,负责蚂蚁AI的所有核心技术研发,包括蚂蚁百灵大模型的所有研 发工作。2023年,该部门在AI领域的重要国际期刊和会议上发表了超过30篇论文。 此外,NextEvo还开源了智能大规模分布式深度学习系统DLRover,以及GPU显存+传输优化开源项目GLake, ...
深睿医疗乔昕:以多模态大模型技术推动智慧医疗新变革
Ren Min Wang· 2025-04-11 06:52
乔昕表示:"在技术突破方面,深睿医疗一直积极探索医学多模态大模型的研发。无论是2023年联 合多家单位基于transformer框架提出了对多模态数据进行统一学习和建模,还是图像分割大模型 SAMI,对于整个影像产品的模型建立与验证发挥了积极的作用。今年我们的影像产品线和大数据产品 线都已经全面嵌入大模型能力,真正实现'多模态数据融合'与'临床价值创造'的能力。在场景深化方 面,深睿医疗在合作医院搭建的AI-MDT肺癌多学科辅助决策平台,通过多模态大模型技术实现了肺癌 的智能诊断与决策推荐,助力提升诊断准确率。"乔昕介绍说:"深睿医疗的长期规划与战略布局聚焦于 技术突破与场景深化,旨在通过持续创新,推动医疗服务从单点效率提升转向系统性价值重构。" "未来,深睿医疗将进一步挖掘大模型在基层医疗、健康管理、远程医疗等场景的应用潜力,构建 全流程全场景的AI数智化服务体系。我们的愿景是让AI成为普惠医疗的基础设施,推动医疗服务从'以 治病为中心'向'以健康为中心'转型,为助力健康中国建设贡献AI力量。"乔昕说。 第91届中国国际医疗器械(春季)博览会(以下简称CMEF)近日在上海举行。杭州深睿博联科技 有限公司(以 ...
港股周报-2025-04-02
BOCOM International· 2025-04-02 06:52
Market Strategy - The report emphasizes a balanced allocation strategy, suggesting that investors should wait for opportunities for elastic rebounds after recent market pressures due to tariff policies and economic uncertainties [2][4]. - The report highlights that the market is currently lacking a clear narrative, leading to divergent capital flows and a technical adjustment in the Hang Seng Technology Index, which has fallen over 10% from its peak [4][5]. - The anticipated announcement of new tariffs by the U.S. is expected to include global tariffs as high as 20%, impacting all trade partners and increasing global risk aversion [4][5]. Sector Performance - The healthcare sector has shown resilience, with pharmaceutical companies experiencing upward momentum due to strong earnings, particularly in CDMO/CMO companies with significant overseas revenue [7][21]. - The materials sector has benefited from a rotation of funds into high-dividend stocks, with coal stocks seeing gains amid declining risk sentiment in technology and consumer sectors [7][21]. - The consumer sector is exhibiting structural trends, with companies like Pop Mart reporting strong earnings growth, while others like Miniso have seen stock price declines following underwhelming performance [7][21]. AI and Technology Developments - OpenAI and Alibaba have made significant updates to their AI models, enhancing multi-modal capabilities that integrate text, images, audio, and video, which are expected to drive commercial applications [10][16]. - The report notes that the AI infrastructure and cloud computing service providers are entering a valuation reconstruction phase, particularly in the context of domestic chip design companies benefiting from localization trends [7][10]. Consumer Sector Insights - The optional consumer sector has outperformed the necessary consumer sector in terms of profit growth, with a reported net profit increase of 39.4% compared to a decline of 2.76% for necessary consumer goods [21][32]. - Companies in the optional consumer sub-sector, such as Pop Mart, have reported significant revenue growth, with a 106.9% increase in annual revenue, driven by strong performance in overseas markets [35][36]. - The necessary consumer sector is under pressure, but there are expectations for marginal improvements as consumption stimulus policies are implemented in 2025 [32][35]. Market Overview - The Hong Kong stock market has experienced a continued pullback, particularly in the technology sector, with valuations nearing the highs of October 2024 [40][54]. - The report indicates that the risk premium for the Hang Seng Index has rebounded, reflecting a shift in market sentiment and a potential opportunity for investors [54][60]. - The report also highlights that the overall market momentum has weakened, with most sectors entering a lagging phase, except for optional consumer and healthcare sectors which are showing improvement [69][70].
小红书技术专家解密语音识别与推荐算法,干货满满|ML Summit 2025
AI科技大本营· 2025-03-24 08:39
4 月 18-19 日,由 CSDN&Boolan 联合举办的 2025 全球机器学习技术大会(ML-Summit 2025)将在上海虹桥西郊庄园丽笙大酒店隆重举行。大会 汇聚了超过 50 位来自学术界和工业界顶尖专家,共同探讨智能体、联邦学习、多模态大模型等热门 AI 技术实践。本次大会的一大亮点是小红书社区 技术部将派出两位技术负责人,分享他们在语音识别与推荐算法领域的最新研究成果与实践经验。 解奉龙毕业于哈尔滨工业大学-微软亚洲研究院联合培养博士毕业,是 2015 年"微软学者"称号获得者,并在 2023 国际语音合成大赛 Blizzard Challenge 中荣获单项冠军。目前,他在小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地,并主导打造了基于大模 型的语音/音乐技术前沿综合解决方案 FireRed。 小红书音频技术负责人解奉龙:FireRed-基于大模型的语音/音乐技术综合实践 在本次大会上,解奉龙博士将带来《FireRed-基于大模型的语音/音乐技术综合实践》的精彩演讲。他将分享小红书技术团队研发的一系列基于大模型 的语音/音乐技术详情及应用落地,包括: FireRe ...
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 06:35
4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,本次大会共设 12 大技术 专题,云集院士、IEEE Fellow、顶尖学者、一线科技企业技术实战专家组成的超 50 位重磅嘉宾。他们将以独特的视角,解读智能体、联邦学习、多 模态大模型、强化学习等前沿议题。 在 4 月 18 日下午,走在多模态研究前沿的阶跃星辰 Tech Fellow,多模态基础模型领域专家段楠博士将在「多模态大模型前沿」专场带来《视频生成 基础模型进展、挑战和未来》的主题分享,分享其在视频生成基础模型方面的最新研究成果和前瞻性思考。 段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领域,是中国科学技术大学和西安 交通大学兼职博导,天津大学兼职教授。在加入阶跃星辰之前,段楠博士曾在微软亚洲研究院担任资深首席研究员及自然语言计算团队研究经理长达十 二年,对自然语言处理和多模态技术的发展做出了卓越贡献。 在 2025 全球机器学习技术大会上,段楠博士将围绕阶跃星辰开源的 Step-Video 系列模型,深入 ...