量子位

Search documents
讯飞AI耳机新品1499开卖,三年成绩单公布:用户破百万,AI调用破千亿
量子位· 2025-05-14 10:02
无需真人!只需提一句需求,AI就能模仿本人声音,完成「通话-订餐」的操作。 白交 发自 凹非寺 量子位 | 公众号 QbitAI 即便是在异国他乡,AI也能模仿当地语言,完成这一整套操作。 展现以上前沿探索的是一家AI硬件公司—— 未来智能 ,科大讯飞孵化品牌,成立于2021年。 过去一段时间里,他们在本就没有太多增量的耳机市场,完成了一些「关键里程碑」。 现场,CEO马啸将一千两百多天的创业历程浓缩为四组数据: 现在他们还将继续加码AI、加码AI硬件—— 推出了iFLYBUDS Pro 3、iFLYBUDS Air 2两款AI会议耳机,并发布聚焦个人商务办公场景的viaim大脑。 两款AI耳机AI感拉满 这两款全新产品AI感拉满~ 2022年首款iFLYBUDS Pro创下17万台销量,销售额一个亿,连续三年业绩翻倍增长,去年开始正 向盈利。 双十一线上销售包揽三大电商平台蓝牙耳机大类目TOP3,线下门店近3000家,出货总量超20万; 累计用户突破100万,覆盖50余行业、180+国家及地区; AI功能累计调用破千亿,月活人数同比增长超2倍。 以旗舰版iFLYBUDS Pro 3为例来说道说道。首先,vi ...
奥特曼最新访谈暗示:OpenAI终极目标是打造订阅制AI服务
量子位· 2025-05-14 08:55
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI希望开发AI操作系统,成为人们的核心AI订阅服务。 这是奥特曼刚刚在红杉资本的"AI Ascent 2025"活动中的谈话内容,并称其为 OpenAI的柏拉图式理想 ,甚至他说其余的任何东西都可以为 之让路。 他认为未来的AI模型将 涵盖用户一生的数据 ,实现个性化推理: 它将是一个非常微小的推理模型,拥有一万亿个上下文标记,你可以把自己的整个人生投入其中。 听起来是不是很罗曼蒂克?但奥特曼本人也坦率承认,这个计划目前还处于"PPT"阶段,明年要构建的产品可能甚至都还没有开始考虑。 不过他相当满意这种状态: 我们以灵活和随着世界变化调整策略为荣。 而在长达半小时的访谈中,除了核心AI订阅服务,奥特曼也畅聊了AI语音交互、代理与编码的价值、2025AI的发展前景等多方面见解。 下面,让我们详细地了解一下。 核心AI订阅服务 在奥特曼的初步构想中,ChatGPT将会转变成深度个性化的AI服务, 模型不再需要重新训练,也不用定制权重 ,这将是一个庞大的记忆宫 殿,你的一生都将包含其中。 你读过的每一本书、每一封邮件,乃至于你看过的每一样东西都在里面, ...
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
量子位· 2025-05-14 08:55
然而,现有的技术大多基于固定的视角视频,缺乏对360°全景视频中空间信息的充分利用。 OmniAudio团队 投稿 量子位 | 公众号 QbitAI 空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。 在这样的背景下,一项在空间音频生成领域具有里程碑意义的研究应运而生—— OmniAudio :它能够直接从360°视频生成空间音频,为虚 拟现实和沉浸式娱乐带来了全新的可能性。 相关代码和数据集已开源: https://github.com/liuhuadai/OmniAudio 为何需要从360°视频生成空间音频? 传统的视频到音频生成技术主要关注于生成非空间音频,比如手机外放或者耳机里的声音,这些音频缺乏方向信息,无法满足沉浸式体验对 3D声音定位的需求。 所以看VR电影或者玩动作游戏的时候,总会觉得少了些代入感。 随着360°摄像头的普及和虚拟现实技术的发展,如何利用全景视频生成与之匹配的空间音频,就成为了一个亟待解决的问题。 为应对这些挑战,OmniAudio的研究团队提出了 360V2SA (360-degree Video to Spatial Audio)任务,旨在直接 ...
百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布
量子位· 2025-05-14 08:55
北大卢宗青团队 投稿 量子位 | 公众号 QbitAI 北大和人大团队在通用人形机器人动作生成领域取得重大突破! 首创性地提出了具备数据-模型协同放量 (Scaling Law) 特性的 通用动作生成框架Being-M0 。 通过大规模互联网视频,构建了业界 首个百万规模的动作生成数据集MotionLib 。 又基于此数据集,研发了端到端的文本驱动动作生成模型,实现了具备规模效应的复杂、多样的人类动作生成,做到了人体动作向多类型人形 机器人的动作迁移。 文章将发表于ICML2025。 创新点 百万级动作数据集MotionLib Being-M0团队构建了业界首个突破百万规模的动作生成数据集,并建立了从原始视频到高质量动作数据的全自动化处理流程,大幅提升 了数据获取效率。 在人工智能领域,数据规模的突破往往能带来模型性能质的飞跃。 为构建大规模动作数据集,Being-M0团队从公开数据集和在线平台系统性地收集了超过2000万段人体动作视频。面对海量的互联网视频数 据,如何实现高质量动作数据的自动化提取成为了关键挑战。 为此,Being-M0团队开发了一套创新的数据处理流水线: 首先,基于预训练模型进行2D人体关 ...
数据中心不必建在地球!中国企业已经把算力设施送到了太空
量子位· 2025-05-14 08:55
12时12分,12颗太空计算卫星,搭乘长征二号丁运载火箭,在酒泉卫星发射中心顺利升空。 这12颗计算卫星,每一颗都具备太空计算和太空互联的能力,将组成全球首个太空计算星座。 它们的背后,是商业航天企业国星宇航牵头发起的 "星算"计划 。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI AI算力,卷到天上了! "星算"计划首发星座发射任务获得圆满成功,将开启全球"太空计算时代"新篇章 。 未来,他们还计划发射更多卫星,织起一张由2800颗卫星组成的太空计算大网。 "星算"计划首批卫星正式启航 "星算"计划由国星宇航牵头,与首批54家高校、科研院所、上市公司、投资机构等共同发起并投入建设。 本次太空计算星座021任务是国星宇航发起的"星算"计划首发星座,也是之江实验室"三体计算星座"的首发星座,星座是不同主体投资、由国 星宇航研制的一轨12颗计算卫星组成。 其目标是 将算力服务器发射入轨形成天基智能计算基础设施 ,其中本次发射任务是将首批十二颗计算卫星入轨组网,每颗卫星均具备太空计 算、太空互联的能力。 这批卫星除配套了国星宇航自研的AI载荷外,还搭载了之江实验室承担研制的星载智能计算机等太空计算软硬件和 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-14 08:55
如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-05-14 06:07
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 我们希望你是: 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 在招岗位包括: AI大模型方向编辑作者 你需要做什么? 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 ...
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
量子位· 2025-05-14 06:07
All-Angles Bench 团队 投稿至 凹非寺 量子位 | 公众号 QbitAI 多视图理解推理 有新的评判标准了! 什么是多视图理解?也就是从不同视角整合视觉信息进而实现理解决策。 想象一下,机器人在复杂环境中执行任务,这就需要根据多个摄像头的画面准确判断物体位置、距离和运动方向,这就依赖于强大的多视图理 解能力。 但过去,由于评估多视图推理能力的基准测试稀缺,这一领域的研究进展相对缓慢。 来自UC伯克利、忆生科技、香港大学、纽约大学、加州大学戴维斯分校、牛津大学等多家机构的研究者联合提出了 All-Angles Bench ,旨 在全面评估MLLMs的多视图理解能力。它涵盖了90个真实场景下,超过2100组人工标注的多视图问答对。 其评测数据集以及评测代码现已全部开源。 他们对27个领先的多模态大语言模型进行基准测试,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。 结果显示,多模态大语言模型与人类水平之间存在显著差距 ,并进一步发现模态大语言模型存在两种主要的缺陷模式:(1)在遮挡情况下跨 视图对应能力较弱;(2)对粗略相机位姿的估计能力较差。 具体来 ...
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
量子位· 2025-05-14 06:07
一水 发自 凹非寺 量子位 | 公众号 QbitAI 在60个主流基准测试中拿下38项第一! 字节发布 轻量级多模态推理模型Seed1.5-VL ,仅用 532M视觉编码器+200亿活跃参数 就能与一众规模更大的顶尖模型掰手腕,还是能带 图深度思考的那种。 相关技术报告也第一时间公开了。 整体而言,虽然是"以小博大",但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。 比如猜下图中有几只猫,人眼很容易误将地上的黑猫当成影子: 同时也能用来解答复杂推理谜题,考公党有福了(bushi~ 还能用来玩"看图找茬",速度和准确率双双胜于人类: 当然,以上也基于其强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票,也能分分钟转换成表格。 那么它是如何做到的呢? 532M视觉编码器 + 20B混合专家语言模型 通过深扒技术报告,背后关键主要在于 模型架构 和 训练细节 。 据介绍,Seed1.5-VL由以下三个核心组件组成: SeedViT:用于对图像和视频进行编码; MLP适配器:将视觉特征投射为多模态token; 大语言模型:用于处理多模态输入并执行推理。 模型支持多种分辨率的图像输入,并通过 ...
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
量子位· 2025-05-14 04:57
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓! 有已经读完报告的网友,还发现了其中的更多亮点。 比如这位Hugging Face研究员感叹,Qwen3在RL阶段的样本量,竟然不到4k。 密集模型的架构与Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,并在注意力机制中引入了QK-Norm,以确保Qwen3的稳定训练。 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。 训练和微调过程采取分段式策略,逐步构建模型能力。 采取了"大带小"的模式,从大号模型中蒸馏数据训练小号模型。 与Qwen2.5-MoE不同,Qwen3-MoE设计不包含共享专家,另外Qwen3采用了全批次负载均衡损失来促进专家专业化。 | Models | | | Layers Heads (Q / KV) # Experts (Total / Activated) Context Length | | --- | --- | --- | --- | | Qwen3-30B-A3B | 48 | 32 / 4 | 128 / 8 ◎ 公众号 · } ...