多模态

Search documents
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇大模型相关论文。本文 深入 探讨了 多模态推理模型中推理能力与幻觉之间的平衡 问题 。如果您有相 关工作需要分享,请在文末联系我们! 本文只做学术分享,如有侵权,联系删文 论文作者:Chengzhi Liu等 作者单位:加州大学、斯坦福大学 项目主页:https://mlrm-halu.github.io/ 解决方案: 不如设计一个能跟踪推理长度变化的指标吧! 于是, RH-AUC 诞生了——它就像一个"动态平衡仪",能画出"推理长度vs.感知准确率"的曲线,算出曲 线下面积(AUC),数值越高,说明模型在不同推理长度下越能"稳得住视觉基本盘"。 前言 自从以 DeepSeek-R1 为代表的 推理LLM 进入研究者广泛讨论范围后, 多模态推理模型 也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷 (PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作 这里查看「多模态推理模型」热门工作汇总(上)~ ; 盘一盘「多模态推理模型」近期热门工作 (下)~ )。 今天就 ...
展位有限!第二届全球医疗科技大会招商进行中
思宇MedTech· 2025-06-19 10:19
商务合作,联系方式如下。 工作微信号: suribot22 手机号: 13552754250 也可以直接联系主编赵清、Alice、Jacky、Ziana 等任何思宇团队的工作人员。 以下为思宇此前举办的大会展位示意图,供参考: 主题演讲 大会现场品牌展位 企业宣传资料发放 活动现场环节嵌入品牌标识 思宇年度活动回顾: 首届全球眼科大会 | 首届全球骨科大会 | 首届全球心血管大会 | 首届全球医美科技大会 由思宇MedTech主办的 第二届全球医疗科技大会 , 将于2025年7月17日在北京中关村展示中心举行。作 为专注于医疗器械的高规格行业大会,企业参展不仅是一次线下交流,更是一次精准的品牌曝光机会。 大会 聚焦"前沿技术 · 从研发走向临床应用" 。目前, 招商已经开始, 展位有限,欢迎有意企业抓紧对接。 权益包括但不限于: # 大会概况 一、会议地点 : 中关村展示中心会议中心(北京市海淀区新建宫门路2号) 六、大会议程(拟) 本次大会将邀请来自影像设备、AI平台、高值耗材、能量系统、材料技术等方向的上市公司、创业企业等,分 享 产品创新、技术落地、医工协同等方面的实践经验。 本届大会将重点探讨以下话题 ...
获批NMPA!国内首款64通道高清多模态掌上无线超声
思宇MedTech· 2025-06-19 10:19
思宇年度活动回顾: 首届全球眼科大会 | 首届全球骨科大会 | 首届全球心血管大会 | 首届全球医美科技大会 即将召开: 2025年7月17日,第二届全球医疗科技大会 2025年9月3-5日,第三届全球手术机器人大会 2025年6月17日, 华大智造掌上无线彩色多普勒超声诊断仪EF6系列 (型号包括EF6-CLA、EF6-CLD、EF6- CLG、EF6-CLP、EF6-CLS)正式获得江苏省药品监督管理局颁发的医疗器械注册证 (注册证编号:苏械注准 20252061068) 。 该注册证的颁发标志着国内首款 64通道双探头掌上超声诊断设备 完成国家级安全性与有效性验证,正式取得 合法上市资质。 作为便携超声领域的一项关键进展,EF6系列的注册通过,不仅代表着技术参数和应用能力的全面升级,也标 志着中国便携超声设备在产品形态、图像质量与临床适配性方面,开始迈入"高清多模态"的阶段。 这是继远程超声机器人MGIUS-R3、H1系列掌上超声之后,华大智造在超声产品线中的又一重要技术成果,进 一步丰富了其"智能+远程+自动化"医疗影像生态系统。 # 产品机制与设计理念 EF6系列定位为新一代掌上超声旗舰机型,在结构 ...
关注暑期文娱表现,AI应用商业化加速与IP经济提振估值
2025-06-19 09:46
关注暑期文娱表现,AI 应用商业化加速与 IP 经济提振估值 20250618 摘要 从 5 月以来,传媒行业整体表现相对平稳,剧集综艺的创新节奏稳定且稳步增 长。游戏板块市场情绪随着新游定档、新活动和新赛季的节奏回暖。电影板块 快手 AI 视频工具估值约 60 亿美元,预计 2025 年底营收达 2 亿美元。 按 30 倍估值倍数计算,快手 2025 年净利润预期约 201 亿元。鉴于快 手在赛道布局上的领先性及 AI 生态系统升级,给予 2025 年约 16 倍市 盈率估值,对应目标价 80 港元。 5 月份全国票房同比下降 41%,观影人次下降 40%。3 月至 5 月票房平 淡,受春节档影响,头部影片较少。端午档票房同比增长 9%,进口片 表现突出。暑期档容量大,弹性大,各片方通常会选择在此期间上映头 部商业化影片,有望展现更大的弹性和情绪回暖迹象。 数字媒体方面,爱奇艺、腾讯视频、芒果 TV 和优酷视频 5 月份活跃用 户分别为 3.5 亿、3.7 亿、2.8 亿和 2.0 亿。芒果 TV 和优酷视频环比提 升,爱奇艺和腾讯视频环比下降。《歌手 2025》表现良好,有望贡献 二季度广告收入。暑期是古 ...
汪华的最新预言:AI时代和移动互联网的最大区别是实现,而非连接
暗涌Waves· 2025-06-19 09:21
「 一年内是吃模型红利头一口汤的黄金期,创业要趁早。 」 整理 | 于丽丽 在中国的风险投资界,创新工场联合CEO兼管理合伙人汪华,素来以 颇具前 瞻性著称。2008年,他超前预测了移动互联网大潮的 到来,2011年则对移动互联网做出"三步走"的趋势判断。这些"预言"在后来的现实中,一一印证。 " 42章经"的曲凯, 因此曾认为,关于移动互联网,从对趋势的预测,和战略布局来说,只有两个人是天才级存在:一个是美团的 王兴,另一个就是汪华。 前不久,在杭州举办的 36氪WAVES新浪潮2025大会上,汪华发表了题为《超越连接,拥抱实现:Agent与多模态的十倍机会》的主 题演讲。 演讲中,他指出了AI时代与移动互联网时代范式的不同,并认为我们即将迎来一个遍地是黄金的AI时代,而所有AI创业者将分享有 生以来最大的一波红利:模型红利。 以下是演讲内容,经编辑: 非常高兴有机会和大家交流关于AI创业里的一些看法和我的观察。"超越连接,拥抱实现",这也是过去两三年时间,和非常多的创 业者,包括投资人了解后的一些体会。 Part 01 移动互联网的旧范式 与 AI 时代的新范式 首先,我们讨论旧的范式和新的范式。AI时代 ...
依图科技前高管创业融资千万元,路由物理世界到AI模型,推动设备智能化改造|36氪首发
3 6 Ke· 2025-06-19 02:33
Core Insights - YunJinWei, a company focused on developing embodied intelligent operating systems, recently completed a Series A+ funding round, raising 10 million yuan to enhance its platform, expand product offerings, and increase ecological coverage in various industry scenarios [1][3] - The global market for embodied intelligent devices is projected to exceed $25 billion by 2024, with a compound annual growth rate (CAGR) of nearly 20%, and China's demand for intelligent transformation in industrial automation and smart cities accounts for over 35% [1][2] - The company aims to address the urgent need for multimodal AI in physical environments, as traditional language models can only handle one-dimensional text data, while industries require integration of visual, sensor, and control command data [1][2] Technology and Innovation - YunJinWei's proprietary YunJin OS utilizes the MaM (Model-Alloy-Model) synthesis model, which achieves nanosecond-level collaborative scheduling of heterogeneous models, significantly improving efficiency in scenarios like intelligent inspection [2] - The architecture addresses the challenge of fragmented physical world data by allowing over 90% of private multimodal data to be processed on edge devices, thus reducing data security costs [2] - The VT-Transformer framework developed by YunJinWei reduces model inference latency to 12ms and decreases memory usage by 85%, enabling billion-parameter multimodal models to run on cost-effective edge hardware [2] Market Penetration and Vision - As of Q2 2025, YunJinWei has served over 120 enterprises, generating revenue in the tens of millions, with notable clients including China Electronics, Guiyang Rail Transit, SAIC Group, and Shanghai Tunnel [3] - The founder, Wang Wenyi, emphasizes the vision of making AI accessible to every enterprise, facilitating low-cost training and inference for intelligent systems [3] - The team comprises experienced professionals from various fields, including system software, chip design, and visual AI, and has established partnerships with research institutions to enhance its technological capabilities [3]
锦秋小饭桌想喊你一起吃饭!
锦秋集· 2025-06-18 15:46
从2月底开始,锦秋基金决定开始一个固定节目——每周五晚上,我们在不同城市组织一场小饭桌,把AI创业者们聚在一起好好吃顿饭。 没想到,这个"不正经的正经事"越办越有意思。 每期的人员构成"越来越MOE"——从技术极客到产品大牛,从初创founder到上市公司高管,从技术专家到独立开发者; 话题也越来越"多模态"——从芯片架构聊到出海策略,从多模态技术聊到用户心理; 甚至形式都在进化——从饭桌拓展到了茶桌。 在这里,可以暂时放下BP和估值,跟一群同样疯狂的人边吃边聊聊那些"还不太成熟"的想法。 对于刚知道锦秋小饭桌的朋友,简单介绍一下:锦秋小饭桌是一个每周五晚在北京、深圳、上海、杭州等地举办的AI创业者闭门社交活动。我们把最前沿的创业 者、投资人、技术大牛聚在一起,围着一桌好菜,聊那些在办公室里不会聊的真话: 不是路演,是真·吃饭 :没有PPT轰炸,只有一桌好菜和实打实的干货分享 不仅是networking,更是brainstorming :深度探讨技术趋势、产品机会、商业洞察 从2月26日的第一顿晚餐,到现在已经开了 15场小饭桌 ,覆盖 北京、深圳、上海、杭州4个城市 。 在正式开始笔记之前,先预告一下近期活 ...
发球机器人进化,“AI刘国梁”走到哪一步了?
Di Yi Cai Jing· 2025-06-18 13:40
Core Viewpoint - The development of embodied intelligent large models is transforming traditional serving robots into more coach-like entities, but creating a true AI coach remains a long-term market challenge [1] Group 1: Market Dynamics - The cost of using serving robots is significantly lower than that of human coaches, with prices for robot sessions around 80 yuan per hour compared to 150 yuan for human coaches [2] - The current serving robots lack sufficient intelligence, primarily offering basic parameter settings without advanced features like strategy generation and feedback adjustment [2][4] - The market for serving robots is expanding, with a notable increase in consumer orders, which now exceed 50% of total orders, indicating a shift towards broader customer bases beyond professional athletes [6] Group 2: Technological Challenges - Most serving robots still utilize a modular architecture rather than an end-to-end model, which complicates real-time data processing necessary for quick responses in table tennis [4] - Developing a more generalized "sports ChatGPT" requires overcoming complex engineering challenges, including integrating image, action, and language data to create effective training strategies [6][7] - The industry is expected to see increased investment in research and market education to enhance the models' generalization and fault tolerance capabilities, which are crucial for commercial success [7] Group 3: Future Opportunities - The global market for tennis serving machines is projected to grow from $27.4 million in 2024 to $40.3 million by 2035, indicating potential for expansion in related sports technology [6] - Recent funding rounds for companies like Chuangyi Technology suggest a positive outlook for investment in the serving robot sector, highlighting the industry's growth potential [6]
小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
理想TOP2· 2025-06-18 11:43
Core Viewpoint - The article discusses the performance of Xiaomi's MiMo-VL-7B multi-modal model, highlighting its strengths and weaknesses compared to the Qwen2.5-VL model, particularly in various testing scenarios. Group 1 - MiMo-VL-7B model outperforms several multi-modal understanding models, especially Qwen2.5-VL, in various tests [3][5]. - The testing results indicate that the SFT (Supervised Fine-Tuning) and RL (Reinforcement Learning) versions of MiMo-VL-7B show similar performance, while the "think" version significantly outperforms the "no-think" version [5][6]. - MiMo-VL-7B's performance in recognizing handwritten OCR is noted to be poor [5][9]. Group 2 - In table recognition tasks, MiMo-VL-7B's "think" model performs well, while the "no-think" model and Qwen2.5-VL struggle [9][10]. - For medium complexity tables, MiMo-VL-7B-SFT "think" model approaches correctness, while other models fail [18][19]. - The article emphasizes that MiMo-VL-7B-SFT "think" model shows better results in complex table recognition compared to its counterparts [26][27]. Group 3 - The article concludes that Xiaomi's MiMo-VL model is impressive overall, particularly the "think" model, which excels in most capabilities except for handwritten OCR [67][68]. - Despite its strengths, the article suggests that the claims of MiMo-VL-7B significantly outperforming the 72B model may be exaggerated [68].
采用AI多模态植保大模型,北京智慧植保系统亮相联合国粮农组织
Xin Jing Bao· 2025-06-18 11:39
下一步,北京市植物保护站联合相关科研机构将在持续提升系统智能识别、智能预警等服务能力的同 时,研发优化病虫害智能巡检机器人等智慧植保硬件设备,为未来的无人化监测预警与防控作业提供智 慧植保硬件设备支撑,并通过智慧植保硬件设备筛选评价与整合平台建设,共同打造出"软件服务系统 研发+硬件设备筛选评价+软硬件融合示范推广"于一体的北京智慧植保新名片,为进一步提升我国智慧 植保的国际影响力继续贡献北京力量。 据悉,依托国内AI大模型等技术的快速发展,北京智慧植保服务系统在今年实现了两个重要突破:一 是系统新增了小麦、玉米、大桃等作物,服务覆盖作物种类增加到53种,整体服务覆盖病虫种类增加到 711种,病虫害智能识别种类增加到347种(其中蔬菜病虫230种),并且新增了AI全语音智能问答等功 能,满足了众多眼花、书写不便用户的使用需求,系统整体服务能力与使用便捷性都得到了极大提升; 二是"神农植保多模态大模型1.0"成功研发并开放使用。该模型由北京市植物保护站与中国农业大学神 农大模型研究团队联合研发,在原神农大模型基础上,新增了5万余条病虫防控技术信息、40万条高质 量标注的植保图像数据和3万条高质量植保问答数据,成 ...