传媒行业快报:GPT模型迭代更新,专注多模态与端侧应用
Huajin Securities·2024-05-14 14:00
2024年05月14日 行业研究●证券研究报告 传媒 行业快报 模型迭代更新,专注多模态与端侧应用 GPT 投资评级 领先大市-A维持 首选股票 评级 投资要点 事件:5月14日凌晨,OpenAI发布新一代旗舰生成模型GPT-4o、桌面App, 一年行业表现 并展示新功能。GPT-4o(“o”代表“Omni”译为全能)更接近自然人机交互。 接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。 端到端训练,模型实现文本、图像、音频跨模态整合。根据OpenAI官网,GPT-4o 音频反馈时长为232毫秒,平均反馈时长为320毫秒,已接近人类对话发应时 间。早期音频模式:由三个独立模型组成(语音转文本-GPT3.5/GPT-4-文本转 语音),会丢失大量信息并存在延迟GPT-3.5(2.8秒)、GPT-4(5.4秒), 同时无法表达情感、唱歌等。GPT-4o模型特点:实现跨文本、视觉和音频训练, 所有输入和输出由单一神经网络处理;实时反馈及情绪感知。各细分表现:语音 资料来源:聚源 翻译任务上,优于Whisper-V3以及谷歌和Meta的语音模型;视觉理解表现优 升幅% 1M 3M 12M 于G ...