多模态AI

Search documents
雷军寻找下一个爆款
财富FORTUNE· 2025-06-27 11:53
Core Viewpoint - The entry of Xiaomi into the AI glasses market is seen as a significant move, positioning its product as a next-generation personal smart device with AI capabilities, aiming to create a new consumer engagement channel [1][2]. Group 1: Market Overview - IDC predicts that global smart glasses shipments will reach 14.518 million units by 2025, with China's market expected to hit 2.907 million units, reflecting a year-on-year growth of 121.1% [2]. - Xiaomi aims for over 300,000 units in sales for its AI glasses, indicating a competitive outlook in a market where major players like Google and Amazon are also planning to release AI glasses [2]. Group 2: Product Features and Positioning - Xiaomi's AI glasses are priced at 1,999 RMB, comparable to Ray-Ban Meta's starting price of approximately 2,144 RMB, suggesting a strategic pricing approach to attract consumers [1]. - The glasses support 14 mainstream apps, including Douyin and Kuaishou, enhancing their appeal through social media integration [3]. Group 3: Competitive Landscape - ByteDance is a notable competitor in the AI glasses space, with plans to explore new wearable interactions, leveraging its large user base from platforms like Douyin [4]. - Meta's strong user engagement, with 3.43 billion daily active users, positions it as a formidable player in driving sales through social sharing [4]. Group 4: Cost and Future Development - The hardware cost of Xiaomi's AI glasses is approximately 1,272 RMB, higher than Ray-Ban Meta's 1,049 RMB, indicating potential for cost reduction as the market matures [5]. - The future of AI glasses may lean towards lightweight AI+AR products, with Meta planning to launch AR glasses by 2027, suggesting a shift in consumer expectations and technology integration [6].
Meta Platforms成功挖角OpenAI三名核心研究员
Sou Hu Cai Jing· 2025-06-26 08:02
此次被挖角的团队包括Lucas Beyer、Alexander Kolesnikov和翟晓华(Xiaohua Zhai),他们此前均隶属 于OpenAI苏黎世办公室,并在计算机视觉与多模态AI领域拥有深厚积累。 6月26日消息,据华尔街日报报道,全球科技巨头Meta Platforms(NASDAQ:META)在人工智能领域的 人才争夺战中再下一城,成功从OpenAI挖走三名重量级研究员,进一步加剧了AI行业的技术竞争。 图源:IC OpenAI发言人证实了三名研究员的离职,但强调公司核心团队保持稳定。CEO山姆·奥尔特曼 (SamAltman)此前在播客中透露,Meta曾试图以1亿美元签约奖金挖角OpenAI员工,但遭到拒绝。他 指出,Meta的"高薪策略"可能分散团队注意力,不利于构建创新文化。 行业分析师认为,Meta的激进招聘策略反映了其在AI领域的焦虑。尽管Meta通过投资ScaleAI等公司积 累了大量资源,但其Llama系列大模型的性能未达预期,最新旗舰模型发布计划多次推迟。此次挖角或 有助于Meta缩小与OpenAI在多模态AI领域的技术差距。 Meta的此次挖角能否转化为技术优势仍待观察。行 ...
全模态RAG突破文本局限,港大构建跨模态一体化系统
量子位· 2025-06-26 03:43
RAG-Anything团队 投稿 量子位 | 公众号 QbitAI 突破传统检索增强生成(RAG)技术的单一文本局限,实现对文档中文字、图表、表格、公式等复杂内容的统一智能理解。 香港大学黄超教授团队开源多模态智能处理系统RAG-Anything,将碎片化的信息孤岛转化为结构化的知识网络,为智能多模态文档分析开辟 了全新技术路径。 人工智能正在从只会处理文字发展到能够理解多种信息形式,这种变化其实很符合日常工作的实际情况。人们平时接触的信息很少是纯文字 的,更多的是包含图片、表格、图表的综合性文档。这些不同类型的内容——文字说明、图像展示、数据分析、逻辑推理等——相互配合,形 成了一个完整的信息体系。 在各个专业领域里,多模态内容早就成为主流的信息传递方式。学术论文需要用图表和公式来展示研究成果,教学材料用图解让概念更好理 解,财务报告靠各种图表来展现数据变化,医疗记录则包含大量的影像和检测数据。这些视觉化的内容和文字说明互相补充,构成了完整的专 业知识框架。 面对如此复杂的信息形态,传统的单一文本处理方式已无法满足现实各类场景的需求。各行业都迫切需要AI系统具备跨模态的综合理解能力, 能够同时解析文字叙述 ...
【公告全知道】数字货币+区块链+国产芯片+跨境支付+多模态AI!公司截至去年末累计为近1.5万家单商户开通数字人民币服务
财联社· 2025-06-24 14:06
Group 1 - The article highlights the importance of weekly announcements from Sunday to Thursday, which include significant stock market updates such as suspensions, increases or decreases in holdings, investment wins, acquisitions, earnings reports, unlocks, and high transfers, marked in red for easy identification [1] - A company has provided digital RMB services to nearly 15,000 single merchants as of the end of last year, focusing on digital currency, blockchain, domestic chips, cross-border payments, multimodal AI, cloud computing, and Huawei's HarmonyOS [1] - Another company is involved in solid-state batteries, lithium batteries, and drones, with existing orders for solid-state battery and key material businesses [1] - A robotics subsidiary of a company is engaged in humanoid robots, autonomous driving, and chips, with products applicable in service robots and humanoid robot sectors [1]
多模态AI黑马刷榜后再造神器:一个产品搞定图片视频播客生成,自带百种特效,大牛梅涛团队出品
量子位· 2025-06-24 13:36
西风 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI A I大牛梅涛坐镇,全新多模态AI问世! 用 法上堪称: 全能 。 不仅 支持 图 片、视频 生成 : 奇幻场景、多样视角都能驾驭: 而且 唇形同步 功能上线,社 恐大"i"人也能玩转 播客 : 划重点: 官方还提供了 上百种可直接套用的趣味特效模版 ,让 用户实现"躺 平创 作"。 人物、 动物、建筑物的"变身"模版通通都有 : 像下面这种炫酷转换, 操作 简单到只需上传一张图: 另外,生图板块的Image Agent也是官方主打,修图生图只需大白话表述,不会写prompt不是问题,它会自动帮你优化 修改。 不卖关子,这个最新创作工具就是 vivago2.0 (智小象AI) 。 打造出它的团队 智象 未 来 (HiDr eam.a i) ,是圈内鼎鼎有名的大牛——加拿大工程院外籍院士梅涛创立的AI公司,研发团队中挤满了 来自中科大的中坚。 前段时间,团队推出的 开源模型HiDream-I1 曾在文生图模型竞技场一鸣惊人, 开源24小时就拿下了排行榜榜首 ,在国内一众开源大模型 中率先跻身第一梯队。 | CREATOR | NAME | ARENA ...
史上最高种子轮花落AI:20亿美元断档领先,苹果Meta抢着都投不进,扎克伯格转头挖联创也遭拒
量子位· 2025-06-24 05:49
毕竟Thinking Machines获得超预期融资的核心竞争力在于团队,约三分之二的成员来自OpenAI,重点人物包括: 此外,Thinking Machines还聘请了两位OpenAI的元老级人物担任顾问,分别是GPT-1的一作 Alec Radford 和OpenAI前研究主管 Bob McGrew 。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI圈融资收购挖人大战,乱成一锅粥了! 最新消息,OpenAI前CTO创办的 Thinking Machines 完成20亿美元种子轮融资,不仅刷新了AI领域的融资纪录,也成为有史以来规模最 大的种子轮融资。 最初,市场传闻该公司的融资目标约为10亿美元,在短短数月内目标金额翻倍。 甚至在这之前 苹果 和 Meta 都曾试图投资或收购Thinking Machines,不过都被创始人 Mira Murati 拒绝了。 其中,苹果与Thinking Machines的谈判并未进入深入阶段就暂时搁置了。 但Meta 扎克伯格 并没有就此善罢甘休,收购不成,转头就去挖人,把AI人才招聘玩成了NBA转会模式。 据消息称扎克伯格试图挖走John Schulma ...
2025年AI在多个方面持续取得显著进展和突破
Sou Hu Cai Jing· 2025-06-23 07:19
多模态 AI 能够处理和整合多种形式的输入,如文本、图像、音频和视频等,成为 2025 年 AI 领域的关键趋势。像 OpenAI 的 GPT-4 能从文本、音频和视觉 输入生成文本,谷歌的 Gemini 模型展示出出色的多模态能力,微软的 Designer 应用利用多模态 AI 进行图形设计任务。其应用广泛,在医疗保健领域可结 合医疗图像和患者病史进行更准确的诊断,在客户服务方面能提供更直观和全面的支持,在内容创作上能根据单一提示生成多种媒体类型。 2025 年 AI 在多个方面持续取得显著进展和突破,主要的发展趋势和特点: Ai生成 AI 智能体正变得日益复杂,从简单的聊天机器人向更智能、具有情境感知能力的助手转变。它们在各个平台上改变着客户服务、生产力和用户交互方式。 例如,智谱 AI 开放日推出的智能体可替用户点外卖,能在无人工干预下完成跨应用程序、多步骤的真实任务。2025 年,智能体将更加普及,能处理更复杂 的任务,为供应链经理、软件开发人员、金融分析师等提供支持,并有望革新自动驾驶领域。 #AI这一年 2025 年见证了小语言模型(SLMs)的快速发展和广泛采用。这些更紧凑的模型相比大型语言模型 ...
依图科技前高管创业融资千万元,路由物理世界到AI模型,推动设备智能化改造|36氪首发
3 6 Ke· 2025-06-19 02:33
作者 | 张子怡 编辑 | 彭孝秋 硬氪获悉,宁波云锦微智能科技有限公司(以下简称"云锦微")于近期完成天使轮+融资,融资金额达 1000万元。本轮投资机构为上海恒砥和宁波舜工,融资资金将用于迭代升级平台、扩充设备产品、增加 垂类行业场景的生态覆盖。 云锦微成立于2021年6月,是一家专注于研发具身智能体操作系统的科技公司。公司致力为具身智能开 发AI大脑,帮助企业将大模型技术应用到边缘计算,实现系统和设备的低成本智能化改造。 g当前大模型已有从云端走向边缘计算的趋势,有望开启万亿级市场。调研数据显示,2024年全球具身 智能设备市场规模超过250亿美元,年复合增长率近20%,而中国在工业自动化、智慧城市等领域的智 能化改造需求占比超35%。 云锦微察觉到到物理世界对多模态AI的迫切需求。传统语言大模型仅能处理一维文本数据,而工业、 零售、安防等场景需要融合视觉、传感器、控制指令等多维数据的"具身智能"需求。其自主研发的云锦 OS 操作系统,能通过两大核心技术,重构AI与物理世界的交互逻辑。 具体来看,云锦 OS 独创的MaM(Model-Alloy-Model)模型合成模型,通过路由混合技术实现视觉、 传感 ...
锦秋小饭桌想喊你一起吃饭!
锦秋集· 2025-06-18 15:46
从2月底开始,锦秋基金决定开始一个固定节目——每周五晚上,我们在不同城市组织一场小饭桌,把AI创业者们聚在一起好好吃顿饭。 没想到,这个"不正经的正经事"越办越有意思。 每期的人员构成"越来越MOE"——从技术极客到产品大牛,从初创founder到上市公司高管,从技术专家到独立开发者; 话题也越来越"多模态"——从芯片架构聊到出海策略,从多模态技术聊到用户心理; 甚至形式都在进化——从饭桌拓展到了茶桌。 在这里,可以暂时放下BP和估值,跟一群同样疯狂的人边吃边聊聊那些"还不太成熟"的想法。 对于刚知道锦秋小饭桌的朋友,简单介绍一下:锦秋小饭桌是一个每周五晚在北京、深圳、上海、杭州等地举办的AI创业者闭门社交活动。我们把最前沿的创业 者、投资人、技术大牛聚在一起,围着一桌好菜,聊那些在办公室里不会聊的真话: 不是路演,是真·吃饭 :没有PPT轰炸,只有一桌好菜和实打实的干货分享 不仅是networking,更是brainstorming :深度探讨技术趋势、产品机会、商业洞察 从2月26日的第一顿晚餐,到现在已经开了 15场小饭桌 ,覆盖 北京、深圳、上海、杭州4个城市 。 在正式开始笔记之前,先预告一下近期活 ...
UU Holo随身AI全球首秀:多模态交互重构“所见皆可问”智能体验
Zhong Guo Chan Ye Jing Ji Xin Xi Wang· 2025-06-18 05:26
6月10日至12日,第二届"一带一路"科技交流大会在四川成都盛大举办。作为多模态世界模型与空间智 能引领者,考拉悠然携三款最新多模态AI创新成果,亮相成都馆"科技创造美好生活"展区。大会汇聚了 来自世界各地的科技界企业、行业专家及公众共同探讨前沿科技如何赋能日常生活,点亮未来城市。 展会现场,城市交通视频语义解析和悠然智擎多模态城市中枢同样值得关注。依托自研的悠然远智全模 态AI应用平台,城市交通视频语义解析可对海量离线视频数据进行快速处理与智能分析,改变了传统 视频检索的繁琐模式。其全要素自动解析能力,能生成视频概述、环境分析、人物行为等结构化结果; 多模态智能问答系统支持自然语言提问、视频联动RAG问答乃至上传截图进行精准识别与追问,深度 挖掘信息,理解复杂查询意图。用户通过关键词实现秒级跨视频检索,彻底告别了逐帧查看的苦差。 不止于数据挖掘,悠然智擎多模态城市中枢,更在于构建智慧城市的"智能神经",精准服务于城市运行 及安全监测的"一网统管"场景。该系统实现了全场景高精准(覆盖13大类100余种事件,综合准确率 90%+)、规模化高效率(全流程秒级响应,日均处理百万级事件)、本地化易开发(快速生成新场景 ...