Workflow
技术瓶颈
icon
Search documents
饥渴的大厂,面对大模型还需新招
3 6 Ke· 2025-04-30 04:11
昨天晚上,跟朋友聊起大模型。 他说现在各家都"卷"到一个新阶段,模型之间差距已经很小,只能用"遥遥领先"或者"吊打同行"这种词 来形容。 从基准测试和数据来看,很多模型都远超 DeepSeek R1、GPT-4o,但继续往下比的空间已经不大了,真 正的差异更多在使用方式上。 这让我开始思考:大模型竞争,是不是已经进入存量博弈阶段? 1 说到"存量",就绕不开一个字:"卷"。不卷,哪来的存量?那问题来了:这个卷,到底在卷什么? 我觉得,表面看到的就三点:算力成本、数据质量和场景渗透。 以前大模型拼参数多,现在开始拼谁的成本低。 阿里家的 Qwen3,用"混合推理"的技术,简单问题用低算力能快速回答,复杂问题再慢慢思考,这样 部署成本直接降到了 DeepSeek-R1 的 1/3 到 1/4。 腾讯混元 T1,3890 亿参数的模型,通过稀疏激活机制,算力利用率比传统模型提升了 30% 以上。 百度的文心大模型,虽然没公开具体成本,但它的推理速度在工业级场景里比竞品快 20%,也算是有 自己的优势。 字节跳动没直接在公开场合提到过算力优化,但它通过抖音、今日头条的场景化落地,间接降低了通用 大模型的部署压力。 所 ...