终极测试成绩创新高，谷歌Gemini 3深度思考模型重大升级，瞄准科研与工程应用

谷歌的深度思考模型Gemini 3 Deep Think迎来重大升级，将其专业推理能力从抽象理论推进至实际应用场景。这一升级聚焦于解决现代科学研究与工程领域的复杂挑战，标志着谷歌在企业级AI市场的战略性押注。美东时间12日周四，谷歌官宣Gemini 3 Deep Think升级，称升级后的模型在多项行业基准测试中取得突破性成绩，包括在"人类的最后考试"Humanity's Last Exam（HLE）基准测试、ARC-AGI-2测试中获得84.6%的成绩，经ARC Prize基金会验证；在竞技编程平台Codeforces上，Gemini 3 Deep Think获得3455的Elo 评分。升级后的深度思考模式即日起面向Google AI Ultra订阅用户开放，同时通过Gemini API向部分研究人员、工程师及企业用户提供早期访问权限。谷歌表示，该模型已在实际研究中展现应用价值，从发现研究论文中的逻辑漏洞到优化半导体材料生长工艺。这一发布使谷歌在AI推理模型竞争中与OpenAI的o1系列和Anthropic的Claude正面交锋。随着通用AI能力日趋商品化，专业推理能力成为企业级市场的新战场，而 ...