Open发布会解读及大模型前沿技术展望
CAITONG SECURITIES·2024-05-16 13:41
而是去在产品的体验上做了那么多的提升和改进其中可能让大家最记忆犹新的就是这次TICPP和我们用户的交互变得非常的逼真 非常的迷人甚至在交互的这个过程中特别是在多媒体的交互过程中能够做到实时的 这样一个交互,所以从这一点来说,我想请教一下专家,就是从您的观看的体验,包括从潜在技术实践的角度,能不能为我们来分析一下这种非常女人化的交互体验是怎么实现的吗?谢谢。好的,谢谢这个问题。首先就是前几天这个GPSO发布, 其实它最大家都知道的它它也比较强调的一个点是它是一个端到端的一个多模态模型就是它输入是多模态的然后输出也是多模态的这个和之前的一些工作啊比如说GPT-4V或者说是这种LAVA那种工作是不太相同的 这里有一个比较重要的区别是什么就是说如果是多模态理解的话它如果生成才是文本那么它的这种多模态的话可以说是粘合上去的它甚至都不用变形词表但是如果是多模态生成的话现在普遍的业界的方案是说 它是训练了当然可以是在文本的文本模型的基础上进行这种Post Training但是它一定是去扩充了词表的也就是它的语音的模态和这种文和视觉的模态它是有单独的词表这个是和之前的一个模型最大的区别然后这个端到端呢就是说也是它实现这种非常 ...