Workflow
多模态大模型
icon
Search documents
小红书技术专家解密语音识别与推荐算法,干货满满|ML Summit 2025
AI科技大本营· 2025-03-24 08:39
4 月 18-19 日,由 CSDN&Boolan 联合举办的 2025 全球机器学习技术大会(ML-Summit 2025)将在上海虹桥西郊庄园丽笙大酒店隆重举行。大会 汇聚了超过 50 位来自学术界和工业界顶尖专家,共同探讨智能体、联邦学习、多模态大模型等热门 AI 技术实践。本次大会的一大亮点是小红书社区 技术部将派出两位技术负责人,分享他们在语音识别与推荐算法领域的最新研究成果与实践经验。 解奉龙毕业于哈尔滨工业大学-微软亚洲研究院联合培养博士毕业,是 2015 年"微软学者"称号获得者,并在 2023 国际语音合成大赛 Blizzard Challenge 中荣获单项冠军。目前,他在小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地,并主导打造了基于大模 型的语音/音乐技术前沿综合解决方案 FireRed。 小红书音频技术负责人解奉龙:FireRed-基于大模型的语音/音乐技术综合实践 在本次大会上,解奉龙博士将带来《FireRed-基于大模型的语音/音乐技术综合实践》的精彩演讲。他将分享小红书技术团队研发的一系列基于大模型 的语音/音乐技术详情及应用落地,包括: FireRe ...
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 06:35
4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,本次大会共设 12 大技术 专题,云集院士、IEEE Fellow、顶尖学者、一线科技企业技术实战专家组成的超 50 位重磅嘉宾。他们将以独特的视角,解读智能体、联邦学习、多 模态大模型、强化学习等前沿议题。 在 4 月 18 日下午,走在多模态研究前沿的阶跃星辰 Tech Fellow,多模态基础模型领域专家段楠博士将在「多模态大模型前沿」专场带来《视频生成 基础模型进展、挑战和未来》的主题分享,分享其在视频生成基础模型方面的最新研究成果和前瞻性思考。 段楠博士拥有深厚的学术背景和丰富的产业经验。他长期深耕自然语言处理、代码智能、多模态基础模型和智能体等领域,是中国科学技术大学和西安 交通大学兼职博导,天津大学兼职教授。在加入阶跃星辰之前,段楠博士曾在微软亚洲研究院担任资深首席研究员及自然语言计算团队研究经理长达十 二年,对自然语言处理和多模态技术的发展做出了卓越贡献。 在 2025 全球机器学习技术大会上,段楠博士将围绕阶跃星辰开源的 Step-Video 系列模型,深入 ...
声网发布对话式AI引擎:让任意大模型开口说话
36氪· 2025-03-07 09:37
响应快、打断快 :通过全链路深度优化,并在 中、美、欧、东南亚主要城市实测,语音对话延迟中位数低至650ms ,让AI秒回 你的提问。超低打断延时,自研"智能打断"技术,模拟真人对话节奏,随时打断与AI的对话,响应低至340ms。 在生成式AI的浪潮下,行业普遍认为多模态大模型是实现AGI的必经之路,知名投资机构a16z最新关于Voice AI的报告也显示, 随着大模型的不断进步,语音将成为一种关键的切入点。声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技 术优势与场景实践,一直致力于将RTE与生成式AI结合,并推出了对话式AI引擎,为开发者带来" 多快好省 "的AI语音对话体 验。 模型选择多 :真正把选择权交给开发者!支持包含DeepSeek、ChatGPT等在内的 全球 几乎所有大模型厂商 。同时也支持全球主 流语音合成供应商任意切换,支持开发者通过语音合成供应商定制的自定义音色接入。更有音视频SDK支持 30000+终端机型适 配,解决多设备兼容性的后顾之忧。 AI开口,互动无界。 3月6日,声网举办了主题为"AI开口,互动无界"的产品发布会,正式发布了全球首个对话式AI引擎。声网对话式 ...
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈
量子位· 2025-02-26 03:51
MM-RLHF团队 投稿 量子位 | 公众号 QbitAI 尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有 的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。 快手,中科院,南大合作从三个层面入手推动MLLM alignment的发展,包括数据集,奖励模型以及训练算法,最终的alignment pipeline使 得不同基础模型在10个评估维度,27个benchmark上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对LLaVA- ov-7B模型进行微调后, conversational能力平均提升了19.5%,安全性平均提升了60%。 偏好数据,训练算法,模型以及评估pipeline均已全面开源。 该方法在twitter上也引起了热议,被评为 多模态alignment的game-changers 。 主要贡献: MM-RLHF人类偏好数据 1. 新数据集: 本文引入了一个包含 120k 精细标注的偏好比较对的数据集,包含三个维度的打分,排序, ...
「全灵SEELE」完成千万美元Pre-A轮融资,由前网易云音乐创始人王诗沐创办
IPO早知道· 2024-11-18 14:48
将发布全球首个AI游戏生成平台。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,「全灵SEELE」日前完成千万美元Pre-A轮融资。本轮融资由百度战投领投,投 资方包括美图投资、富坤创投等机构,老股东 Webtime Information S&T 持续加持。 全灵SEELE创始人兼CEO王诗沐是前网易云音乐创始人,曾担任腾讯NBase创新业务总经理、腾讯 新闻负责人。核心团队汇聚腾讯、字节跳动、阿里巴巴等公司的资深专家,包括多位大模型、图形学 的算法博士及游戏技术专家。产品与增长团队由连续创业者、腾讯和网易资深增长负责人组成。 团 队背景横跨AI、游戏、互联网领域,凭借跨领域研究开发的能力,SEELE AI成为全球少有的能够快 速实现大模型训练与应用落地的团队。在短短半年时间内,公司海外产品已积累近百万用户,展现出 领先行业的用户粘性与自然增长能力,吸引了大量专业游戏从业者、MMD/VRchat创作者的加入。 随着个性化、社交化推荐的发展,游戏内容生产面临着规模化与个性化的双重挑战,AI技术正成为突 破这一瓶颈的关键 。SEELE AI革命性地简 ...