Workflow
多模态能力
icon
Search documents
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 06:19
6月25日晚间,字节跳动Seed团队公布了豆包大模型1.6-Thinking版本的"高考成绩":文科总分683分, 理科总分648分。这一成绩以2025年山东高考试题作为测评基准,其中语数外使用新课标全国新一卷,政 史地/物化生则采用山东省自主命题。 最新公布的山东高考分数线显示,特殊类型招生控制线为521分,普通类一段线为441分。山东省内多位有 着多年高三带班经验的资深教师判断,根据山东省公布的2025年夏季高考文化成绩一分一段表,豆包大模 型1.6-Thinking的科目组合的赋分成绩最高能超过690分,排名在前80位左右,稳上985,并达到了冲 击"清北"的水平。 值得注意的是,本次测试还引入了OpenAI的o3 high、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4和DeepSeek的R1-0528等国内外多款主流模型作为对比对象。成绩显示,4款大模型文理科成 绩均大幅超过了普通类一段线,显示大模型已超越众多普通考生,达到人类优秀考生的水平。 | | | MillersDorcx Seed | | | | | | --- | --- | --- | --- ...
迈向通用具身智能:具身智能的综述与发展路线
具身智能之心· 2025-06-17 12:53
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 具身AGI的定义 : 论文将具身AGI定义为能够以人类水平的熟练度完成多样化、开放式现实世界任务的具身AI系统,强调 其人类交互能力和任务执行能力。 通用具身智能路线 现状 : 现有的具身AI模型(如视觉-语言-动作模型,VLA)大多仅支持视觉和语言输入,并且输出仅限于动作 空间。 挑战 : 类人认知能力不足 论文提出了一个从L1到L5的五级路线图,用于衡量和指导具身AGI的发展,每个级别基于四个核心维度:模 态(Modalities)、类人认知能力(Humanoid Cognitive Abilities)、实时响应能力(Real-time Responsiveness)和泛化能力(Generalization Capability)。 | | | 作者: Yequan Wang , AixinSun 单位: 北京人工智能研究院, 南洋理 ...
AI多模态能力有望进入大规模应用阶段,科创AIETF(588790)涨近1%,成交额已超亿元
Sou Hu Cai Jing· 2025-05-28 04:01
截至2025年5月28日 11:07,上证科创板人工智能指数(950180)上涨0.41%,成分股芯原股份(688521)上涨2.87%,石头科技(688169)上涨2.14%,虹软科技 (688088)上涨1.45%,道通科技(688208)上涨1.11%,奥比中光(688322)上涨1.02%。科创AIETF(588790)上涨0.71%,最新价报0.57元。流动性方面,科创 AIETF盘中换手3.68%,成交1.13亿元。拉长时间看,截至5月27日,科创AIETF近1年日均成交2.75亿元,居可比基金第一。 华鑫证券指出,豆包近日宣布在App端上线实时视频通话功能,用户在"打电话"界面点击视频按钮即可开启视频通话,支持基于真实场景与用户进行实时问 答互动。视频通话功能还接入了联网搜索能力,实时获取互联网最新信息,以进一步提升对话的准确性与时效性。根据图像信息,豆包视觉理解模型还能完 成多种复杂逻辑计算任务,包括解微积分题、分析论文图表、诊断真实代码问题等"挑战性"任务。我们认为这标志着AI多模态能力有望进入大规模应用阶 段。 东莞证券认为,字节豆包视频通话模型上线,是多模态感知技术商业化落地进程中的标志 ...
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
IPO早知道· 2025-05-13 01:55
行业的技术发展还是在非常陡峭的区间,阶跃不想在这个过程中放弃主流增长或前进的趋 势。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据 IPO早知道消息, 阶跃星辰的创始人、 CEO姜大昕博士 日前分享了其对当下大模型发展的理解 以及对 阶跃星辰 未来的展望。 整体而言, 姜大昕博士 认为: 首先, 阶 跃目前的状态是坚持基础大模型的研发,追求 AGI是阶跃的初心,阶跃 对此 也不会改变 。 其次 , 在当前的竞争格局中,阶跃差异化的特点就是多模态的能力,不仅眼下很多模态在业界的性 能是领先的,而且阶跃也在积极地探索前沿的方向 , 并且 也认为这里还存在着非常巨大的机会。 第三, 在应用的层面,阶跃也走了一条差异化的路线,携手合作伙伴在智能终端 Agent这个方向上 发力,最终形成一个从模型到Agent,从云侧到端侧的生态体系 ,因为阶跃认为软硬结合是能更好 地理解用户的需求,完成用户的任务。 " 行业的技术发展还是在非常陡峭的区间 , 阶跃不想在这个过程中放弃主流增长或前进的趋势,所 以我们还是会坚持做基础模型的研发。 而从 应用的角度来 看 ,我们一直觉得应用和 ...
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 08:34
毕竟平时合作的前端开发给他视频不给参数的时候他连这个还原度都达不到。 我好像感觉自己发现了 Gemini 2.5 Pro 0506 版本最强的能力。 它可以根据你上传的网页交互视频,生成还原度非常高的网页效果!这篇内容顺便教大家如何更好地使用这个 能力。 这些效果往往是文字和图片难以描述的。 可以说这次的前端能力提升真正的将 Gemini 的多模态能力在开发领域释放了出来。 可以先看一下这个效果。 虽然在设计师看来他还原的还需要进行一些小优化,但是已经非常好了。 首先是一个前段时间看到的交互,一个邮箱地址包含了名字、网页、邮箱和 Ins 账号,同时 Hover 对应的图 标对应的文字就会高亮。 可以看到他搞的还是不错的,虽然有些小问题,比如图标不需要变色,有些细节丢了,比如虚线是需要保住一 部分文字的间距的。 先来介绍一下 Gemini 2.5 Pro 0506 这个版本 顾名思义这个是谷歌在五月六号发布的,他们也叫 I/O 版本,是为了 12 天之后的谷歌 I/O 大会发布准备 的。 谷歌说这个版本的主要更新内容是:在前端和用户界面开发方面实现显著改进,同时在基本编码任务如代码转 换和编辑以及创建复杂的智能 ...
加码多模态能力,夸克发布全新“AI相机”
Guan Cha Zhe Wang· 2025-04-28 09:29
资料显示,基于视觉理解与思考推理的强大模型能力,夸克AI超级框从视觉出发创新下一代搜索体验,进一步理解和回答物理 世界中的各类问题。 作为阿里巴巴AI旗舰应用,夸克AI超级框持续快速迭代,提升超级智能体的多模态能力,打造用户生活、工作、学习的AI超级 入口。 据官方介绍,夸克AI相机功能多元。拍下景色照片既可以查找位置,也能让旅游助手制定行程;看见不了解的文物、动物、植 物,拍照问夸克,给出答案的同时也会自带中外语音讲解;跨国旅行时,面对外文菜单,拍照问夸克,也能给出良好翻译回 应;使用夸克AI相机,还可以对照片进行多余杂物的消除,调整表情、头发和服装,还能让AI代写朋友圈文案。 4月27日,夸克AI超级框发布全新AI相机,上新"拍照问夸克"功能。 旅游出行助手功能 夸克官方 功能入口 视频截图 同时,使用夸克AI相机也可以充当生活管家。电脑蓝屏、电器显示故障时,拍下相关情况,能获取解决方法和故障原因;家里 灯泡、变压器、螺丝等物品损坏,拍照即可知晓该购买哪一款,解决生活中的各种难题。 生活建议功能 夸克官方 夸克AI相机能在健康方面给予指导。看不懂体检报告数值,拍照可获得详细解释,并生成专属健康方案;吃药前 ...
超越DeepSeek!刚刚,腾讯元宝登顶下载榜
21世纪经济报道· 2025-03-03 15:14
作 者丨白杨 编 辑丨朱益民 刘雪莹 3月3日,腾讯元宝APP在中国区苹果应用商店免费Ap p下载排行榜上, 上升至第一,超越 De epSe ek,而豆包位居第四。 3月3日晚中国区苹果免费APP下载排行榜截图 目前, 腾讯元宝是AIGC应用中用户增长最快的App。 2月2 2日,腾讯元宝在上述排行榜上 猛地上升了1 0 0多名,排名超越豆包,仅次于De e pSe e k。 2月22日中国区苹果免费APP下载排行榜截图 3月1日,腾讯元宝正式发布电脑版,支持Wi n d ows和ma cOS系统, 可以在电脑上读图、智能 对话。 此前,腾讯元宝让De e pSe e k具备了读图能力,如今 读图能力 也完整上线电脑版,用户随手 截图或发送任意图片,元宝都能结合图片内容给出自己的分析和理解。另外电脑版也支持解析 文件,大幅提升文件、论文等阅读效率。 腾讯元宝电脑版不仅能通过De e pSe e k -R1满血版和推理模型混元T1进行深度思考,也可以通 过De e pSe e k -V3和腾讯混元Tu r b o S快速获得答案,结合公众号等腾讯内容源与权威互联网信 息,确保提供的答案时效性更强、可信度更高。 ...