Workflow
自主学习
icon
Search documents
一口气发布4个大模型,火山引擎这次真的杀疯了!
Sou Hu Cai Jing· 2025-06-17 09:09
近日,火山引擎FORCE原动力大会在北京盛大召开。会上,火山引擎正式发布豆包大模型1.6、豆包・视频生成模型Seedance 1.0 pro等新模型,并升级了 Agent开发平台等AI云原生服务。这些新产品在多模态交互、复杂任务处理、内容生成等方面展现出强大功能,如豆包大模型1.6支持多模态理解和图形界 面操作,能高效处理真实世界问题;Seedance 1.0 pro可生成高品质视频,在多项评测中位居前列。 当前,全球AI大模型市场竞争激烈,众多企业纷纷布局。与市面上同类产品相比,火山引擎此次发布的大模型家族凭借全模态、全尺寸、高性价比的特 性脱颖而出。例如在多模态能力上,相比部分仅支持单一或少数模态的模型,豆包大模型1.6实现了更广泛的模态融合与深度理解;在成本方面,创新的 定价策略也为企业用户带来了显著优势,在激烈的市场竞争中抢占先机。 火山引擎的豆包大模型家族已形成丰富矩阵,涵盖基础语言模型、视觉模型、语音模型等,适用于智能交互、内容创作、数据分析等多元场景。基础语言 模型凭借强大的自然语言处理能力,为智能客服、文本生成等场景提供核心支持;视觉模型在图像识别、视频分析等领域发挥关键作用;语音模型则专注 ...
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-09 04:23
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈, 首发于「张小珺商业 访谈录」。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确,数据质 量有限,生成模块往往无法反向影响理解模块等; • 模型 scale 到万亿参数后,在文本生成和知识问答能力增强的同时,推理能力,尤其是数学, ...
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 04:51
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分 支,使推理过程从单线变为图状结构。 目录 01 研究主线: 重新回归大模型 • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确, ...