Workflow
多模态模型
icon
Search documents
GPU租赁价格调研
傅里叶的猫· 2025-04-26 11:15
最近有朋友问我GPU目前的租赁行情,正好看到国盛证券的这篇研报。里面分析了目前GPU云的行 业趋势、各个大厂的竞争格局、目前的GPU租赁市场行情,以及哪些A股的标的,我们这篇报告只关 注行业信息,研报中个股部分的内容就不讲了。 上次发的RTX5090的文章之后,咨询的朋友非常多,看来大家对RTX5090的热情还是非常高的,对 RTX5090有兴趣的朋友或者RTX5090渠道商的朋友,可以加文章后面的微信。 正文 行业趋势总览 当前AI与云计算产业的协同发展已形成紧密的飞轮效应,其核心逻辑在于技术迭代、应用扩展和算 力需求三者的正反馈循环。AI大模型能力的快速提升(如Qwen3、Llama4的多模态升级与逻辑推理 优化)正推动AI从辅助工具向核心生产力渗透,这一过程高度依赖云服务商在算力、存储和运维等 底层能力的持续升级。 以阿里云为例,其第九代ECS实例算力提升20%而价格下降5%,通过硬件性能优化和规模效应摊薄 成本,为企业降低AI开发门槛,进而刺激更多应用场景的落地,例如谷歌Gemini 2.5 Pro在复杂推理 任务中超越人类的表现,以及阿里Qwen2.5-Omni以轻量化模型实现手机端全模态交互,均显 ...
540亿商汤,甩出一张新牌
一上台,商汤科技董事长兼CEO 徐立就感叹,"如果三个月不更新自己的认知,可能就会被淘汰。" 4月10日,商汤举办2025技术交流日,徐立正式发布全新升级的"日日新SenseNova V6"(以下简称"日日 新V6")大模型体系。 在徐立看来,多模态模型和通用人工智能的发展,画上约等号,以计算机视觉起家的商汤,从视觉能力 到原生多模态模型的布局,则是自然延伸。 商汤科技联合创始人兼大模型首席科学家林达华向《21CBR》记者表示,公司去年5、6月份就在做多模 态的探索,到了9、10月,技术路线基本跑通。 林达华称,之所以专注多模态推理,而非纯文本赛道的竞争,在于坚信未来的交互,必然是多模态的。 日日新V6,作为拥有超6000亿参数的MoE原生多模态通用大模型,凭借单一模型就可以完成文本、多 模态等各类任务。 其技术能力上的突破,重在四个方面: 长思维链:超过200B高质量多模态长思维链数据,最长64K思维链;数理能力:数据分析能力大幅领先 GPT-4o;推理能力:多模态深度推理国内第一,对标OpenAI o1;全局记忆:率先在国内突破长视频理 解,支持10分钟的视频理解及深度推理。 值得一提的是,长记忆。林达华 ...
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 07:46
一个男友回头表情包,可以秒变 语义分割 图。 也可以秒变 深度图 。 这下不光上一代AI画图工具和设计师,计算机视觉研究员也哭晕在厕所了。 这是NASA前工程师测试特斯拉自动驾驶系统的伪装"隐形墙",在GPT-4o面前也无所遁形。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,CV被大模型"解决"了 (狗头) 。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 这下OpenAI应用研究主管 Boris Power 已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。 3D渲染领域也惨遭毒手,GPT-4o可以生成 PBR材质 (基于物理渲染的材质),纹理、法线贴图等直接来一套。 对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet就可以 全部实现。 但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。 GPT-4o图像生成是自回归模型 这波GPT-4o原生图像生成的技术细节,OpenAI是一点也没有公布(粗节也没有公布)。 但还是有人从System Card中发现了蛛丝马迹。 与DALL·E是一个扩散模 ...
智谱上线GLM-4-Voice端到端情感语音模型:迈向AGI之路的最新一步
IPO早知道· 2024-10-26 02:12
发布即开源,这也是智谱首个开源的端到端多模态模型。 本文为IPO早知道原创 作者|C叔 微信公众号|ipozaozhidao 据IPO早知道消息,智谱于10月25日上线了GLM-4-Voice 端到端情感语音模型。 GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并 且延时更低、可随时打断。 作为端到端的语音模型,GLM-4-Voice 避免了传统的 "语音转文字再转语音" 级联方案过程中带 来的信息损失和误差积累,也拥有理论上更高的建模上限。 整体而言,GLM-4-Voice 具备以下特点:1、情感表达和情感共鸣:声音有不同的情感和细腻的变 化,如高兴、悲伤、生气、害怕等。2、调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点 说。3、随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容和风格,支持更灵活 的对话互动。4、多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言, 尤其擅长粤语、重庆话、北京话等。5、结合视频通话,能看也能说:即将上线视频通话功能,打造 在保持一贯 发布即上线 风格的同时 ,GLM-4- ...