多模态

Search documents
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 04:00
Core Viewpoint - PresentAgent is a multimodal AI agent designed to automatically convert structured or unstructured documents into video presentations with synchronized voiceovers and slides, aiming to replicate human-like information delivery [1][3][22]. Group 1: Functionality and Process - PresentAgent generates highly synchronized visual content and voice explanations, effectively simulating human-style presentations for various document types such as business reports, technical manuals, policy briefs, or academic papers [3][21]. - The system employs a modular generation framework that includes semantic chunking of input documents, layout-guided slide generation, rewriting key information into spoken text, and synchronizing voice with slides to produce coherent video presentations [11][20]. - The process involves several steps: document processing, structured slide generation, synchronized subtitle creation, and voice synthesis, ultimately outputting a presentation video that combines slides and voice [13][14]. Group 2: Evaluation and Performance - The team conducted evaluations using a test set of 30 pairs of human-made "document-presentation videos" across various fields, employing a dual-path evaluation strategy that assesses content understanding and quality through visual-language models [21][22]. - PresentAgent demonstrated performance close to human levels across all evaluation metrics, including content fidelity, visual clarity, and audience comprehension, showcasing its potential in transforming static text into dynamic and accessible presentation formats [21][22]. - The results indicate that combining language models, visual layout generation, and multimodal synthesis can create an explainable and scalable automated presentation generation system [23].
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 04:00
PAPO团队 投稿 量子位 | 公众号 QbitAI 让大模型在学习推理的同时学会感知。 伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的 专注于多模态推理 的强化学习算法 PAPO (Perception-Aware Policy Optimization)。 现有的强化学习算法(如GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。 近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很 少设计对于核心GRPO算法的改动。 而PAPO通过创新的 隐式感知损失设计 ,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中 感知与推理脱节的问题。 PAPO的模型和数据均已开源,详细可见文末链接。 错误分析:发现感知瓶颈 PAPO的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是 视觉感知的准确性 问题。 PAPO团队对使用GRPO训练的Qwen2.5-VL-3B模型在四个基准数据集上的200个错误案例进行详细 ...
新京报联合Xsignal发布首期“全媒介之星”中国AI应用榜
Bei Ke Cai Jing· 2025-07-11 02:45
本榜单根据不同领域AI应用的全媒介声量(核心指标为AI应用用户发文总量,实时覆盖新闻、社交媒体、短视频、垂直社区、金融财经等800+内容平台数 据),梳理出了2025年1月-6月排名前20的国内AI应用,并对照应用的MAU(月活跃用户)进行了数据分析。 7月10日,2025贝壳财经年会上,新京报AI研究院和数据公司Xsignal联合发布了2025年上半年"全媒介之星"中国TOP 20 AI应用榜单。 | 1,071 24 | 33 23 | 373 23 | 870 | | --- | --- | --- | --- | | (MAU I ) ( ( ( ( ( ( ( ) | (MAU 万) ( ( 总声量 万) | (MAUI 万) (总声量 万) | (MAUI 7) | | 24 (总声量1万) | | | | 从具体APP来看,市场集中度的攀升成为上半年最显著的特征。豆包、DeepSeek、夸克组成的 "超级三巨头",以超2000万的声量(其中豆包接近3000万) 和破亿的活跃用户数(豆包2.05亿、DeepSeek2.2亿),牢牢占据核心流量入口与用户心智。数据显示,三者合计占据市场超 60% 的 ...
A股指数集体高开:沪指微涨0.05%,稀土永磁、稳定币等板块涨幅居前
Feng Huang Wang Cai Jing· 2025-07-11 01:38
机构观点: 华泰证券:坚定看好铜价上行趋势,本次回调或是配置良机 华泰证券表示,2025年7月8日,美国商务部长卢特尼克宣布特朗普将对铜加征50%的关税,政策预计于 7月下旬或者8月1日实施。由于距离关税实施较短,我们判断"抢运"行情基本结束;7月下旬或者8月1日 正式加征50%关税后,消失的出口需求+铜7-8月传统淡季,非美地区供需紧张的格局或逆转,我们判断 短期LME/SHFE铜价或回调、但幅度有限。我们坚定看好铜价上行趋势,本次回调或是配置良机。 凤凰网财经讯 7月11日,三大指数集体高开,沪指高开0.05%,深成指高开0.06%,创业板指高开 0.02%,稀土永磁、稳定币、泛金融等板块指数涨幅居前。 | | | | | 沪深京重要指数 | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 名称 *● | 販新 | 涨幅% | | 涨跌 | 张速% | 总手 | 现手 | 金额 | | 上证指数 | 3511.37 | 0.05 | 1.69 | 942/807 | -0.09 | 625万 | 625万 57.45 7 ...
全球最强AI模型?马斯克发布Grok 4!重仓国产AI产业链的589520单日吸金3922万元!
Xin Lang Ji Jin· 2025-07-11 01:17
市场分析人士指出,投资人工智能行业要亲身感受时代红利,关注其长期投资价值。当前人工智能技术 发展迅速,应用场景不断拓展,从长远来看,有望持续推动相关企业业绩增长,为投资者带来长期投资 回报。 【国产替代之光,科创自立自强】 乘风AI热潮,全球大模型百花齐放,国产DeepSeek实现弯道超车,打破海外算力封锁,奠定了国产AI 公司后来居上的基石。重点布局在国产AI产业链、具备较强国产替代特点的科创人工智能ETF华宝 (589520),其标的指数均衡配置应用软件、终端应用、终端芯片、云端芯片四大环节,有望受益于端 侧芯片/软件AI化进程提速。 7月10日,马斯克旗下人工智能公司xAI发布Grok 4,该模型在"人类的最后考试"(Humanity's Last Exam)取得了25.4%的准确率,超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%,被 称为"世界上最强AI模型"。 华泰证券指出,多模态大模型和应用发展的奇点将至,相当一部分Al应用公司的商业化产品依赖多模态 能力,多模态有望在算力和应用两方面带来相关投资机会。 对AI产业而言,诸如DeepSeek等行业热点的出现 ...
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 01:14
读研想少走弯路、快速出成果?靠自己瞎摸索费时间费精力还没结果,找个厉害的榜样"抄作业",才是最 直接的办法。 导师介绍 毕业于知名计算机名校。曾在多家公司担任算法研究员,并进行计算机视觉,高效模型压缩算法,多模态 大语言模型的研究,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理。 博士期间研究方向聚焦为计算机视觉,高效的深度学习训练和推理方法,大语言模型轻量化与高效微调技 术。 这套路看着"功利",但真能让你在科研路上跑快点,别人还在绕小道,你已经上了高速。 厉害的榜样通常 来说,就是那些论文专利一大堆的导师学长学姐,但苦于和这些榜样搭不上话, 现在如何让入场甩开同 行,别人摸路你超车? 自动驾驶之心联合业内知名LLM/MLLM方向学者推出了1v6指导小班课。从模型理论到代码实践, 业内大 牛手把手带走科研全流程,帮助大家形成自己的知识体系, 掌握LLM/MLLM论文的算法设计及创新思路。 扫码免费咨询 【科研成果】 在国际顶级会议CVPR,ICCV, EMNLP等发表十余篇论文, 并担任CVPR,ICCV,ECCV,ICML,ICLR, NeurIPS 等重要会议和期刊的审稿人。多项发明专利,已经指 ...
首都在线20250710
2025-07-11 01:05
首都在线 20250710 摘要 首都在线全面转型智算业务,预计 2025 年 GPU 业务增长 60%-80%, 受益于多模态应用落地加速。公司战略为"一云多池、一云多模、一云 多芯",并推出 GPU g 客平台,按节点和 TOKEN 收费,已上线 deep seek、智谱等模型,计划三季度或四季度上线海外版模型。 公司在算力基础设施方面积极扩张,包括甘肃庆阳的万卡集群扩建,河 北怀来基地的年底投产(规划 50 兆瓦),以及安徽芜湖长三角节点的 明年开工(规划 100 兆瓦)。美国达拉斯节点规划 15 兆瓦,并解决能 源问题。 首都在线纳管及自持 2.1 万张芯片,包括 4,090、5,090、H200 等型 号。2025 年计划投资 3-5 亿元购置芯片,一季度末已花费约 2 亿元, 主要用于购买 4,090 和 H200 型号。 公司预计 2025 年利润约为 15 亿元,较 2024 年的 13 亿多有所增长, 但仍处于缩亏状态。预计 2026 年实现盈利转正,得益于政府补贴回流、 GT 充沛度减少、成本下降及集群效应提升毛利率。 Q&A 首都在线公司近期的经营情况和未来规划是什么? 首都在线公司自 ...
从Grok-4看AI产业发展
2025-07-11 01:05
从 Grok-4 看 AI 产业发展 20250710 摘要 GROX4 在推理能力上实现显著提升,在 Humans Last Examination (HLE)测试中得分达到 50 分,远超 OpenAI 的 23 分,并在美国奥林匹 克数学竞赛中取得优异成绩,显示其强大的推理能力。 GROX4 通过稀疏激活策略优化参数,减少了 40%的参数量,同时提高 了推理效率。相比 GROX3,GROX4 仅使用 1.7 万亿 TOKEN,性能却 显著提升,降低了计算成本。 GROX4 引入多模态融合,整合音频、图像、实时搜索和工具调用,增 强了模型处理复杂任务的能力,并支持实时上网功能,扩展了应用场景。 GROX4 的 API 定价较高,输入每百万 TOKEN 收费 3 美元,输出每百 万 TOKEN 收费 15 美元,是 O3 的一倍价格,反映了其性能提升带来的 成本增加。 GPT-5 预计在 7 月底至 9 月份发布,重点在于多模态深度整合,包括文 生图、文生视频和音频交互能力,并增强 agent 功能,以提升产品体验。 Grok 创新模式将 agent 调用放入预训练中,通过多个 agent 协作完成 任务, ...
A股盘前播报 | 两大稀土巨头宣布提价 上海大动作 事关稳定币
智通财经网· 2025-07-11 00:27
盘前要闻 1、北方稀土、包钢股份两大稀土巨头宣布提价,机构看好行业供需改善 类型:行业 情绪影响:正面 包钢股份与北方稀土双双发布公告,宣布将第三季度稀土精矿关联交易价格调整为不含税19109元/吨, 较二季度的18825元/吨上涨1.5%。国投证券表示,预计未来全球镨钕氧化物市场会出现需求缺口,镨钕 价格有望持续上涨。 2、上海市国资委围绕加密货币与稳定币的发展趋势及应对策略召开会议 类型:行业 情绪影响:正面 上海市国资委党委召开中心组学习会,围绕加密货币与稳定币的发展趋势及应对策略开展学习。会议提 出,坚持创新驱动,保持对新兴技术的敏锐感知,加强对数字货币的研究探索。坚持产数融合,探索区 块链技术在跨境贸易、供应链金融、资产数字化等领域的运用。 类型:公司 情绪影响:正面 隔夜美股特斯拉上涨4.73%,消息面上,特斯拉近日正式申请在亚利桑那州进行Robotaxi的测试与运 营。此前马斯克还透露,Robotaxi服务很可能在一到两个月内扩展至加州旧金山湾区。不过,加州监管 机构对特斯拉的态度较为审慎。 投资锦囊 3、中美是否会在8月初进行谈判,商务部回应:双方保持密切沟通 类型:宏观 情绪影响:正面 美国 ...
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 12:40
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶 - 下一代智能驾驶量产核心算法 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。 2024年理想汽车更是宣布E2E+VLM的双系统架构量产! 端到端自动驾驶通过传感器数据输入 (视觉/Lidar等)直接输出自车规划或控制信息,是目前智能驾驶最具代表性的方向。 目前VLM/VLA也是招聘的刚需,3-5年就能冲击百万年薪! 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先前的技术方案已经不适合当下的大环境。端到端目前发 展出多个领域技术的方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Trans ...