终极测试成绩创新高,谷歌Gemini 3深度思考模型重大升级,瞄准科研与工程应用
谷歌的深度思考模型Gemini 3 Deep Think迎来重大升级,将其专业推理能力从抽象理论推进至实际应用场景。这一升级聚焦于解决现代科学研究与工程领域 的复杂挑战,标志着谷歌在企业级AI市场的战略性押注。 美东时间12日周四,谷歌官宣Gemini 3 Deep Think升级,称升级后的模型在多项行业基准测试中取得突破性成绩,包括在"人类的最后考试"Humanity's Last Exam(HLE)基准测试、ARC-AGI-2测试中获得84.6%的成绩,经ARC Prize基金会验证;在竞技编程平台Codeforces上,Gemini 3 Deep Think获得3455的Elo 评分。 升级后的深度思考模式即日起面向Google AI Ultra订阅用户开放,同时通过Gemini API向部分研究人员、工程师及企业用户提供早期访问权限。谷歌表示, 该模型已在实际研究中展现应用价值,从发现研究论文中的逻辑漏洞到优化半导体材料生长工艺。 这一发布使谷歌在AI推理模型竞争中与OpenAI的o1系列和Anthropic的Claude正面交锋。随着通用AI能力日趋商品化,专业推理能力成为企业级市场的新战 场,而 ...