小扎回应Llama 4对比DeepSeek：开源榜单有缺陷，等17B深度思考模型出来再比

梦晨发自凹非寺量子位 | 公众号 QbitAI Meta首届LlamaCon开发者大会开幕，扎克伯格在期间接受采访，回应大模型相关的一切。包括Llama4在大模型竞技场表现不佳的问题：试图为这类东西进行过多优化会误入歧途。对于我们团队来说，搞一个冲到榜单顶部的Llama 4 Maverick版本相对容易，但是我们发布的版本根本没有对此进行调优，排名靠后是正常的。以及与DeepSeek的比较：我们的推理模型还没有出来，所以还没有和R1相应的模型去对比。与此同时，在Meta合作伙伴亚马逊的网站代码中，被扒出要即将推出的Llama4推理模型为17B参数的llama4-reasoning-17b-instruct。开源基准测试存在缺陷，常偏向特定不常见用例，与产品实际使用场景脱节，不能真实反映模型的优劣。活动期间，有那么点Meta不语，只是一味地抛出Llama系列"亮点"的意思了（doge）：扎克伯格谈"智能爆炸" 扎克伯格认为随着软件工程和AI研究的自动化推进，智能爆炸具备实现的可能性。从技术发展趋势来看，AI写代码能力不断提升，预计未来 12-18个月，大部分相关代码将由AI完成。 ...