Gemini Pro

Search documents
特朗普AI计划在GitHub上泄露,网友怒喷用AI代码“治国”!
AI前线· 2025-06-16 07:37
泄露的信息核心是"AI.gov"项目:AI.gov 将成为政府机构在运营流程中引入 AI 的枢纽,由美国总务 管理局(GSA)与技术转型服务局(TTS)小组,在 Thomas Shedd 的领导下合作开发。 泄露事件被曝光没多久,该代码仓库就从 GitHub 上消失了。不过有网友称,虽然 ai.gov 的 GitHub 代码仓库似乎不再显示,但也并没有完全隐藏——总务管理局方面只是把它移到了一大堆归档项目当 中。有兴趣的读者朋友可以查看: https://github.com/gsa-tts-archived/ai.gov 泄露了哪些信息 从泄露的代码仓库信息来看技术转型服务小组负责人、马斯克的盟友 Thomas Shedd 在今年 1 月底 接掌团队时就曾提出这一设想。 Shedd 的职业生涯主要是在特斯拉担任软件集成工程经理,之后被任命为技术转型服务负责人。他 加入政府之初就将 AI 放在了首位。据报道,他希望总务管理局能够像初创软件公司那样运营,并提 出了一项涵盖全政府且 AI 优先的战略,希望将目前联邦雇员的大部分工作转为自动化。 根据 GitHub 上托管的 AI.gov 网站暂存链接, Shedd ...
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 03:52
奥特曼使用大模型的方法,竟然是错的? 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的 "直接回答"提示,竟然会显著降低模型准确率 。 不过另一方面,这项研究也发现, 在提示词中加入思维链(CoT)命令同样不好用 —— CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。 而一些前沿的非推理模型,CoT提示可以带来效果提升,但答案的不稳定性也随之增加了。 研究团队使用GPQA Diamond数据集,针对现在主流的推理和非推理模型,分别在启用和不启用CoT的情况下进行了测试。 结果就是对于推理模型,CoT的作用十分有限,比如对于o3-mini,CoT带来的准确率提升只有4.1%,但时间却增加了80%。 非推理模型的结果则要复杂一些,但总之要不要用CoT,也需要对收益和投入进行仔细权衡。 所以CoT到底该不该用呢? 实际上,这项研究针对的是用户提示词中的CoT命令,并不包括系统提示词设定,更 不是CoT本身 。 CoT提示词作用有限,甚至还有反效果 结果, 对于非推理模型,CoT提升相比于直接回答,所有模型的平均评分和"51%正确"指标都有 ...
State-Of-The-Art Prompting For AI Agents
Y Combinator· 2025-05-30 14:00
Metarprompting is turning out to be a very very powerful tool that everyone's using now. It kind of actually feels like coding in you know 1995 like the tools are not all the way there. We're you know in this new frontier. But personally it also kind of feels like learning how to manage a person where it's like how do I actually communicate uh you know the things that they need to know in order to make a good decision. [Music] Welcome back to another episode of the light cone. Today we're pulling back the c ...
超越DeepSeek?巨头们不敢说的技术暗战
3 6 Ke· 2025-04-29 00:15
无可置疑的,DeepSeek-R1模型的面世使中国AI技术发展有了极大的优势侧,也标志着人工智能领域的 里程碑式突破。 不过,技术创新往往伴随应用成本的转移。约65%的早期采用者反馈,在实际部署中需要投入大量开发 资源进行适配优化,这在一定程度上削弱了其理论上的效率优势。 这款具有颠覆性意义的推理模型不仅在研发效率上展现出显著优势,其性能指标可与OpenAI等业界领 军企业的产品分庭抗礼,甚至基于中国的应用场景,可能还有所超越,而其所需计算资源较同类产品大 幅缩减近30%。 该模型的成功实践既印证了算法创新的无限可能,也引出了关键的技术进化命题,即当未来算法突破与 传统计算架构出现适配瓶颈时,行业将面临怎样的转变挑战? 当前主流大模型(如GPT-4、Gemini Pro、Llama3等)正以每月迭代2-3次的频率推进技术革新,持续刷 新性能基准。DeepSeek-R1通过独创的分布式训练框架和动态量化技术,成功将单位算力下的推理效能 提升40%,其研发轨迹为行业提供了算法与系统工程协同进化的典型案例。 而且,该团队研发的多头潜注意力机制(MLA)在实现内存占用降低50%的突破性进展时,也带来了 开发复杂度的显 ...