Workflow
量子位
icon
Search documents
上海车展见证历史:从「西为中用」到「中为西用」,行业风向标携手Momenta
量子位· 2025-05-01 02:07
一凡 发自 上海车展 量子位 | 公众号 QbitAI 或许多年以后,回顾总结中国汽车的"技术逆差"时代的终结,2025上海车展,上汽大众与Momenta,会成为被反复提起的时刻 。 技术输血到智能造血的历史性转折 汇聚全球品牌的上海车展,像是WAIC提前开了个汽车专场,AI芯片、AI座舱、智能辅助驾驶方案扎堆展出,主机厂上新车,秀肌肉,言必称 AI。 历史性的时刻,发生时往往显得随机漫不经心,但连点成线之下,却又戏剧得好像经过精心安排。 上汽大众 ,1984年诞生的中国首家轿车合资车企,代表着中国汽车面向西方先进汽车工业"技术输血"的开端。41年后,2025年的上海车展现 场,AI智能化成为汽车变革主引擎的当下,完成了核心技术供应的切换——与中国智能辅助驾驶公司签署合作。 但即便是身处上海车展,站在签约现场, 或许后知后觉才会意识到见证了中国汽车工业的历史性时刻 —— 从 "技术输血" 到 " 智 能造血" 的标志性时刻。 而且上汽大众只是一个典型代表,依然是上海车展,德、日、美等诸多传统汽车豪强,也在智能辅助驾驶上作出了中国技术引入的共同选择, 更具戏剧性的是,还是同一个选择—— Momenta 。 已经 ...
一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品
量子位· 2025-05-01 02:07
LearnAct团队投稿 量子位 | 公众号 QbitAI 想让手机AI像人类一样快速学习? 浙大与vivo联手突破!全新 LearnAct 框架仅需一次示范,就能教会AI完成复杂操作。 研究同步发布的LearnGUI基准,首次构建了面向移动端示范学习的评估体系,为AI智能体的实用化部署提供了关键技术支撑。 本文的作者来自浙江大学和vivo AI lab。本文的共同第一作者为浙江大学硕士生刘广义和赵鹏翔,主要研究方向为大语言模型驱动的GUI智能 体技术。项目leader 为vivo AI lab 算法专家刘亮。本文的通信作者为浙江大学孟文超研究员。 移动应用和用户界面的多样性创造了许多长尾场景,截至2025年仅Google Play上就有168万个应用,现有智能体在长尾场景中难以有效执行 任务。 目前主流的智能体构建方法依赖通用LLMs的内在能力或通过大量数据微调,但面对以数百万的移动应用及数十亿用户各自独特的任务需求, 这些方法难以覆盖如此庞大的多样性,导致在未见场景中表现不佳,阻碍了手机GUI智能体的广泛应用。 手机GUI智能体:潜力与挑战并存 随着大型语言模型(LLMs)的快速发展,手机图形用户界面(G ...
小扎回应Llama 4对比DeepSeek:开源榜单有缺陷,等17B深度思考模型出来再比
量子位· 2025-04-30 06:15
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Meta首届LlamaCon开发者大会开幕,扎克伯格在期间接受采访,回应大模型相关的一切。 包括Llama4在大模型竞技场表现不佳的问题: 试图为这类东西进行过多优化会误入歧途。 对于我们团队来说,搞一个冲到榜单顶部的Llama 4 Maverick版本相对容易,但是我们发布的版本根本没有对此进行调优,排名靠后是 正常的。 以及与DeepSeek的比较: 我们的推理模型还没有出来,所以还没有和R1相应的模型去对比。 与此同时,在Meta合作伙伴亚马逊的网站代码中,被扒出要即将推出的Llama4推理模型为17B参数的llama4-reasoning-17b-instruct。 开源基准测试存在缺陷,常偏向特定不常见用例,与产品实际使用场景脱节,不能真实反映模型的优劣。 活动期间,有那么点Meta不语,只是一味地抛出Llama系列"亮点"的意思了(doge): 扎克伯格谈"智能爆炸" 扎克伯格认为随着软件工程和AI研究的自动化推进,智能爆炸具备实现的可能性。从技术发展趋势来看,AI写代码能力不断提升, 预计未来 12-18个月,大部分相关代码将由AI完成 。 ...
AI卧底美国贴吧4个月“洗脑”100+用户无人察觉,苏黎世大学秘密实验引争议,马斯克惊呼
量子位· 2025-04-30 06:15
西风 发自 凹非寺 量子位 | 公众号 QbitAI 哈?AI秘密潜入Reddit社区,"操纵"用户观点4个月。 离谱的是,人类全程毫无察觉,而且 被 A I说服改 变想法 的概率,高达正常基准的 6倍 ! Reddit Lies在X上发布了一则帖子,引发二百多万网友围观。 事情经过是酱婶儿的。 Reddit的r/changemyview(CMV)版主最近曝光了一项研究,称苏黎世大学研究人员在2024年11月至2025年3月期间,瞒着CMV社区用 户,搞了一场未经授权的实验。 他们违背CMV社区规则,部署了AI账号生成评论以研究AI如何影响和改变人们的观点。 Reddit Lies在服务器上查询了CMV版主曝光的 13个实验用的机器人用户名 ,发现仅在几个月的时间里,这些机器人就发布了近1500条评 论。 超100位Reddit用户给这些AI账号授予了" ∆ ",这表明 AI生成的论点成功改变 了他们 的观点 ,是基线水平的6倍。 | SELECT * | FROM reddit.comments | WHERE author = 'DeltaBot' | | | | | | | | | | --- | -- ...
Qwen3真香!通义App满血接入,一手实测在此
量子位· 2025-04-30 04:10
鱼羊 一水 发自 凹非寺 量子位 | 公众号 QbitAI 开源大模型新王者,正在受到空前关注。 Qwen3预告一出,直接开启不眠夜模式。 △ 来自编辑部本部 等到深夜正式上线并宣布登顶全球最强开源模型,更是瞬间引爆全网热议。 | | | Hope you enjoy our new models! | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 22B | Qwen3-32B Dense | OpenAl-o1 2024-12-17 | Deepseek-R1 | Grok 3 Beta BB Think | QwQ-32B | Qwen3-4B Dense | Qwen2.5-72B-Instruct | Gemma3-27BIT | | | 93.8 | 92.1 | 93.2 | | 89.5 | 76.6 | 81.2 | 86.8 | | | 81.4 | 74.3 | 79.8 | 83.9 | 79.5 | 73.8 | 18.9 | 32.6 | | | 72.9 | 79.2 | 70.0 | ...
量子位招聘 | DeepSeek帮我们改的招聘启事
量子位· 2025-04-30 04:10
DeepSeek 发自 凹非寺 量子位 | 公众号 QbitAI 未来同事,你好~ 这是一则 招聘帖 。 量子位 是一个关注AI及前沿科技的新媒体平台,我们着迷于全新技术和趋势带来的改变,并 正致力于帮助更多人第一时间看懂新趋势、新机遇。 如果你与我们志同道合,对 AI大模型、具身智能、终端硬件、AI新媒体编辑 感兴趣,我们 正在招聘这些领域的原创作者。 以下岗位均为全职,工作地点:北京中关村。 岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正 加分项: 加入我们,你可以获得: 乐于探索AI新工具,善用AI新工具; 拥有解读论文的能力,能深入浅出讲解原理; 有写代码能力; 量子位长期读者。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知 体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领 袖。 我们希望你是: 拓展行业人脉 :与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业 视野。 获得专业指导 :会由主编级编辑出任mentor,提供一对 ...
当购物用上大模型!阿里妈妈首发世界知识大模型,破解两大推荐难题
量子位· 2025-04-30 04:10
允中 发自 凹非寺 量子位 | 公众号 QbitAI 在推荐、广告场景,如何利用好大模型的能力?这是个很有挑战的命题。 背后主要有两个核心难点: 1)LLM虽然具备丰富的世界知识和推理能力,但缺乏电商领域的专业知识,在直接应用中往往表现欠佳。 2)LLM的交互方式多为文本,而直接将用户历史行为以文本格式描述会导致输入信息冗长、信息密度低等问题,对建模和推理都造成了困 扰。 为了解决以上问题,阿里妈妈提出了一种 世界知识大模型URM ,通过知识注入和信息对齐,让LLM成为兼顾世界知识和电商知识的专家。相 比于传统的推荐模型,URM通过对用户兴趣的全面理解,可实现基于推理认知能力的用户兴趣推荐。 为了在低时延、高QPS要求的实际系统中上线应用,阿里妈妈技术团队设计了一套面向用户行为动态捕捉的异步推理链路。 目前,URM已经在阿里妈妈展示广告场景上线,在商家的投放效果和消费者的购物体验等指标上均带来了显著提升。 以下面这个例子为例,一个对嵌入式家电、收纳用品有过历史行为的用户,系统推测用户在关注装修且处于硬装的早期阶段,且根据点击商品 推断用户比较注重生活品质,因此推荐了一些全屋定制类产品以及高品质的家电。 在传统 ...
多邻国全面AI First!AI能胜任的工作,都不再新招人,“等技术100%成熟时就晚了”
量子位· 2025-04-30 04:10
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 被AI带飞的小绿鸟,现在要彻底AI-first了。 多邻国CEO最新全员信宣布: 拥抱AI已经到了相当紧迫的时刻, 哪怕技术没有100%成熟 ,也不能再等了,否则就要错失良机。 第一步要做的,就是用 AI替代人工外包 。 如果承包商的工作是 AI能胜任的 ,那就会逐步被替代。 岗位扩招也变得更加严格:只有当一个团队的工作实在没有办法进一步用AI自动化时,才能增加人员。 此外,招聘、绩效评估这类工作,AI也将加入其中。 但这不是要用AI取代员工。 CEO在全员信中特意表示,是用AI来为团队提效,让人类更专注于创造性的工作。 作为借力OpenAI商业化落地的典范,"邪恶小绿鸟"这两年赚得飞起。 从2023年到现在,股价一路走高,最高时超过400美元,目前总市值达到174.98亿。 近期发布的2024年第四季度业绩报告显示,日活用户达到4000万,同比增长51%。 第四季度总预订量同比增长42%,收入同比增长39%,全年调整后的EBITDA利润率提高了约8个百分点。 如此增长,使得小绿鸟成为这波AI大潮中的商业化典范。比如谷歌就在最近推出了基于Gemini的类似 ...
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位· 2025-04-30 04:10
医疗大模型知识覆盖度首次被精准量化! 在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。 他们提出的 MedKGEval框架 ,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。 该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2 日。 MedKGEval团队 投稿 量子位 | 公众号 QbitAI 背景 大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。 当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限: 1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差; 2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量; 3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。 为解决这 ...
10秒生成官网,WeaveFox重塑前端研发生产力 | 蚂蚁徐达峰@中国AIGC产业峰会
量子位· 2025-04-30 01:04
编辑部 整理自 AIGC产业峰会 量子位 | 公众号 QbitAI AI入职大厂担当程序员编程助手,如今已非新鲜事。 不过,随着实践的深入,新的问题正在出现:AI生成代码需要大量翻修、安全生产难以保障…… "如果不能找到一个合适的切入点,可能会适得其反——用AI不如不用AI。" 作为技术变革的一线亲历者,蚂蚁集团平台智能体验技术负责人徐达峰如是坦言。 聚焦前端开发场景,徐达峰和他的团队打造了WeaveFox智能研发体系进行AI编码。主要有图生代码、意图生码和AI质检系统三大突破方向, 让AI能根据用户输入的设计图,或者工程上下文补充逻辑代码,交付通过多模态技术检查产物质量。 目前WeaveFox已在阿里和蚂蚁实际投产,据介绍在超500名前端工程师的参与下,目前在设计图交付动线场景下,AI已累计生成合并接近 100万行代码;研发效率最高可提升5倍。 在第三届中国AIGC产业峰会上,围绕"AI赋能软件研发周期"的话题,徐达峰带来更多前端从业者、开发者的第一视角实践与思考。为了完整 体现徐达峰的分享,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 中国AIGC产业峰会是由量子位主办的 ...