Workflow
量子位
icon
Search documents
AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
量子位· 2025-06-06 13:45
一水 发自 凹非寺 量子位 | 公众号 QbitAI AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙) 莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~ 就在刚刚,专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型—— Eleven v3 。 不仅支持70多种语言 (含中文) ,还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。 官方自信表示,这是 "迄今为止最具表现力的文本转语音模型" 。 新模型发布不久即在AI圈引起热议,Reddit网友也齐聚一堂疯狂讨论。 RIP有声书配音。 对于英语为第二语言的人来说,根本无法区分AI和真人,唯一不足的是他们太热情了! 目前Eleven v3仍处于内部测试阶段,API即将推出,实时在线版本正在开发中。 那么,新模型具体有哪些亮点?又是如何做到的呢? 引入音频标签控制情绪 接下来我们结合官方提供的 「使用指南」 一步步拆解Eleven v3的 亮点及背后原理 。 首先需要提醒,提示词过短更容易导致输出不一致,因此官方建议文本字符最好超过250个。 如何选择想要的声音? 一般拿到一段需要 ...
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 13:45
VL-Rethinker团队 投稿 量子位 | 公众号 QbitAI 1.1 GRPO中的「优势消失」问题 (Vanishing Advantages) 在GRPO算法中,优势信号(advantage)是通过比较同一查询组内不同候选回复的奖励来计算的 。当同一个问题组内所有回答获得相同奖 励(例如,全部正确或全部错误)时,计算得到的优势信号便为零 。研究团队发现,在GRPO训练多模态模型的过程中,随着训练的推进, 出现零优势信号的样本比例显著增加,这种现象被定义为 「优势消失」 (Vanishing Advantages) 。 相比于用于更多高质量推理数据的纯文本推理,Vanishing Advantages在能力较强的多模态模型强化学习时尤其突出。 这种显著的Vanishing Advantages源于两方面原因: 在文本推理领域,以GPT-o1、DeepSeek-R1为代表的 "慢思考" 模型凭借显式反思机制,在数学和科学任务上展现出远超 "快思考" 模型 (如 GPT-4o)的优势。 然而,当战场转移至多模态推理场景时,这些「思维巨匠」却表现平平:GPT-o在MathVista、MathVerse等多模 ...
OpenAI首次回应人机情感问题:越来越多人对ChatGPT产生依赖,模型感知意识会继续增强
量子位· 2025-06-06 06:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT不只是个工具了,越来越多的人正在拿它当朋友。 OpenAI模型行为负责人 Joanne Jang 刚刚发布深度文章,首次系统回应一个越来越普遍的现象: 用户正在和AI建立真实的情感联系 。 她在OpenAI直接负责ChatGPT如何"说话"和"表现"的核心决策。 文章开门见山就爆料:越来越多的人告诉我们,和ChatGPT聊天感觉就像在和"某个人"说话。他们会感谢它、向它倾诉,有些人甚至形容它 是"活的"。 她认为这可不是小事——当AI系统越来越擅长自然对话,并出现在生活的更多场景中,这种情感纽带只会变得更深。 现在如何定义和讨论人机关系,将为未来定下基调。如果在产品设计或公共讨论中不够精确和细致,可能会让人们与AI的关系从一开始就走 偏。 问题是,如果人们把倾听、安慰和肯定的工作越来越多地交给这些无限耐心和正面的系统,可能会改变我们对彼此的期待。 Joanne Jang警告说,如果不经深思熟虑就让人们更容易逃避复杂、充满挑战的人际关系,可能会带来我们意想不到的后果。 AI到底有没有意识? 人类的老毛病遇上了新科技 其实人类给物体赋予生命这事儿 ...
用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025
量子位· 2025-06-06 06:06
而对于这项任务,复旦大学、腾讯优图实验室等机构的研究人员设计了一种 基于扩散模型的少样本异常图像生成新模型DualAnoDiff 。 实验结果显示,DualAnoDiff相比之前的方法取得了新SOTA。 不仅生成的异常图像最接近原始数据集MVTec中的情形,而且实际用来训练检测模型的效果 (检测、定位、分类等下游任务) 都更佳。 DualAnoDiff团队 投稿 量子位 | 公众号 QbitAI AI模型用于工业异常检测,再次取得新SOTA! 相关论文已中稿计算机视觉顶会 CVPR 2025 。 通俗理解,工业界为了检测产品异常,往往需要更多真实的残次品数据来训练检测模型;为了解决数据稀缺问题,常规做法一般是让模型生成 各种逼真 "次品图",并标注"哪个地方坏了"。 那么,它是如何做到的呢? 双分支并行生成机制 目前,工业制造中的异常检测性能受到 异常数据稀缺性 的限制。 为克服这一挑战,研究人员已开始采用异常生成方法来扩充异常数据集。 然而,现有异常生成方法存在生成异常多样性有限、难以实现异常与原始图像无缝融合的问题,且生成的掩码通常与生成的异常区域不匹配。 对此,团队提出同步生成整体图像与对应异常部分的方 ...
AI眼镜沙龙|距离全民标配还有多远?
量子位· 2025-06-06 06:06
本次AI眼镜专题沙龙,将以行业代表 主题分享 、 圆桌对话 为主要形式,与行业嘉宾、观 众共同交流研讨。 核心话题 林樾 发自 凹非寺 量子位|公众号 QbitAI 2025年,AI眼镜市场一片火热。 国内已有华为、雷鸟、ROKID、星纪魅族等十余家厂商都陆续发布了AI眼镜产品,还有更多 的产品正等待亮相。"百镜大战"的序幕已然拉开。 AI眼镜正以最贴近人体的硬件形态,挑战成为AI硬件落地的创新场景。那么 何时消费级AI眼 镜才能走向「全民标配」 ? 为了更好回答这个问题,我们希望在6月下旬举办 一场关于 AI眼镜的专题沙龙 ,更希望以 此为契机,与更多关注AI眼镜的伙伴一起交流。 沙龙简介 我们后续将开放观众报名通道,敬请关注量子位公众号后续资讯~ 相关阅读 《最新 AI 眼镜格局报告:百镜大战拉开序幕,阿里 DeepSeek 高通成幕后赢家》 一键三连 「点赞」「转发」「小心心」 时间 :拟为2025年6月下旬 地点 :北京市海淀区中关村创业大街 形式 :线下沙龙|线上同步直播 第一代AI眼镜面世接受市场检验后,有什么可以总结的? 打造一款爆款AI眼镜,需要解决哪些方面的挑战? AI眼镜的killer应用 ...
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 04:01
WebDancer团队 投稿 量子位 | 公众号 QbitAI 能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。 同时,该框架也为在开源模型上复现Deep Research系统提供了可行的指导。团队将进一步在更开放的环境中、结合更多工具,持续拓展和 集成Agentic能力,推动通用智能体的落地与演进。 一、背景:信息检索的新需求与挑战 在信息爆炸的时代,传统的搜索引擎已难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,复 杂问题的解决需要深入的信息挖掘和多步推理能力。这催生了对能够自主思考、自主决策的智能体的需求。 然而,构建这样的智能体面临诸多挑战: 二、突破训练数据难获得问题 在自主信息检索领域,高质量的训练数据至关重要。然而,现有的数据集如2WIKI,HotpotQA多为浅层次问题,难以支持复杂多步推理的训 练需求。 数据过滤 ...
清华给电子显微镜加上Agent,DeepSeek V3全程调度,数天流程缩短至几分钟
量子位· 2025-06-06 04:01
AutoMat团队 投稿 量子位 | 公众号 QbitAI 它相当于一位精准的"地图翻译官",把原子级 STEM 图像自动转成标准 CIF 结构,并一步到位给出形成能等关键物性。 过去的人工流程被缩短到几分钟,真正打通了"显微成像 → 结构重建 → 性质预测"的断层。 此外,团队还专门构建了二维材料数据集 STEM2Mat‑Bench(450 余个样本)进行验证—选择二维材料是因为其单层结构减少多重散射与投 影歧义,更便于精确成像与评测。 AI Agent又解锁了一个领域! 清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent—— AutoMat 。 结果显示,AutoMat在重建精度与能量预测上全面超越现有多模态大模型与AtomAI等专用工具,首次让"看到原子"真正等同于"理解材料",为 材料发现和实验流程的自动化闭环开启了高速通道。 电镜领域的AI Agent 电子显微技术的快速发展已达到亚原子级的成像效果,但解析表征图像的原子结构仍然需要专家逐像素判读、手动建模,对应模板结构,这样 才能得到可供计算的晶体结构文件,这一过程往往耗时数小时甚至数天,还容易因噪声或元素重叠出 ...
Figure机器人分拣快递新视频曝光,网友:太像人类
量子位· 2025-06-06 04:01
西风 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 与OpenAI分道扬镳后,Figure 02开启日夜进厂打工模式。 这不,创始人刚刚放出 最新监工视频 。它干 快 递分 拣员 的活儿,愈发得心应手了。 只见它把快递逐个码放整齐,让条形码朝下,方便扫描仪识别。 碰到纸片型快递,翻面操作也轻松拿捏: 它还懂得把快递整理得更平整,瞅见红色充气快递,也不盲目按压,直接放行: 翻箱子的动作那叫一个丝滑,网友看后直呼手部动作真是太像人了: 即便快递压在下面,它也能抽出来,虽说捏了好几下才成功: 关键这一连串操作, 完全是由端到端通用控制模型Helix自主驱动 。 Figure创始人兼CEO Brett Adcock放出的这段视频,直接打脸一位网友的质疑。 起因是在放出这段视频之前,Brett Adcock发推文称Helix在物流场景有大幅改进,迫不及待要展示新内容。 结果一位AI质疑者在评论区放话:"包裹随机变化的情况下,这绝对行不通"。 没想到,这话刚说没几个小时,Brett Adcock就甩出最新视频。 网友纷纷表示Helix加持的Figure 02最新表现令人印象深刻。 它的动作非常流畅自然。头部微微的 ...
Gemini新版蝉联竞技场榜一,但刚发布就被越狱了
量子位· 2025-06-06 00:58
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个"Gemini",暗示了新模型的实力。 没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。 深夜,谷歌通过等多个账号同时官宣, Gemini 2.5 Pro再次推出新版本 (0605)。 新版本在代码、推理等任务上的表现更上一层楼, 在超难数据集"人类最后的考试"中以21.6%的成绩超过了o3 。 在大模型竞技场上,新版Gemini也超越了自己, Elo评分比上个月的版本提升了24分 。 | ഗ്ര Text | | | 1 7 hours ago | | --- | --- | --- | --- | | Rank (UB) ↑ | Model ↑↓ | Score 1J | Votes 1↓ | | 1 | G gemini-2.5-pro-preview-06-05 | 1470 | 4,701 | | 2 | G gemini-2.5-pro-preview-05-06 | 1446 | 10,386 | | 2 | இ o3-2025-04-16 | 1443 | 13,808 ...
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 00:58
DeepTheorem团队 投稿 量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题",让AI学会像人类一样 推导数学证明 ! "特训"过后,模型定理证明性能大涨 ,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型 。 "特训题"为 Deep Theore m ,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。 团队表示,定理证明是数学前沿的重要组成部分,但当前大语言模型 (LLM) 在数学推理,特别是通过强化学习 (RL) 进行训练时,往往 需要可以自动验证的答案,导致大模型无法像数学家那样通过自然语言进行定理证明。 图(b)展示经过强化学习训练的DeepTheorem-7B模型性能,比肩或超越现有的开源模型和商业模型 (Gemini2.0-flash, Qwen2.5-72B- Instruct, Claude3.7 等 ) ,仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度:专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...