Chain-of-Thought (CoT)

Search documents
DeepSeek们越来越聪明,却也越来越不听话了。
数字生命卡兹克· 2025-05-19 20:14
在今年,DeepSeek R1火了之后。 几乎快形成了一个共识,就是: AI推理能力越强,执行任务时就应该越聪明。 从2022年Chain-of-Thought横空出世,到今天Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3,这些旗 舰模型的统治性表现,我们一直相信,让模型先想一想,是一个几乎不会出错的策略。 不过,这种聪明,也会带来一些副作用。 就是提示词遵循能力,变得越来越差。 换句话说,就是越来越不听你的话了。 我在过年期间写DeepSeek的攻略文: DeepSeek的提示词技巧,就是没有技巧。 的时候,也提到了这一 点。 不过,这只是我自己使用中的感觉,它变的越来越聪明,但是感觉,却越来越不听话了,以至于我现 在,最常用的模型,开始越来越变成了GPT4o,所有的推理模型,反而会用的越来越少了。 不过,确实没有经历过验证,所以也不是特别敢说。 直到昨晚回来,在扒拉论文的时候,看到一篇提到这个话题的论文,我读完以后,我觉得,终于可以来 聊聊这个事了。 这篇论文叫,《When Thinking Fails: The Pitfalls of Reasoning for I ...
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
机器之心· 2025-05-19 04:03
本文由匹兹堡大学智能系统实验室(Intelligent Systems Laboratory)的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。 当前文本生成视频(T2V)技术正在从注重视觉质量与模型规模的扩展阶段,迈向更关注物理一致性与现实合理性的推理驱动阶段。 物理规律作为建模现实世界的基本知识体系,是实现高质量视频生成的关键约束。提升大模型对现实物理动态的理解与遵循能力,成为推动 T2V 技术落地 的重要突破方向。 为推动物理一致性驱动的 T2V 生成研究,来自匹兹堡大学的研究团队提出了 PhyT2V 框架,并在最新论文中系统阐述了该方法的核心机制,该论文已被 CVPR 2025 接收。 论文标题:PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation 论文地址: https://arxiv.org/abs/2412.00596 该方法不依赖模型重训练或大规模外部数据,而是通过引入大型语言模型引导的链式推理与迭代自我修正机制,对文本提示进行多轮物理一致性分析与优 化,从而 ...
超越 Suno,全球首个 CoT 音乐模型Mureka O1 来了!
AI科技大本营· 2025-03-26 10:20
人人都是音乐创作人的时代来临了! 出品丨AI 科技大本营(ID:rgznai100) AI 正渗透各行各业,前不久,一首由 AI 创作的歌曲火爆出圈,在短短几天内登上热歌榜单。AI 正在为音乐爱好者打开音乐创作之门。据 Fortune Business Insights 数据显示,2023年全球数字音频工作站(DAW, Digital Audio Workstation)市场规模高达约30亿美元,预计2026年约70%的 DAW企业将使用AI技术辅助音乐创作。 《Mureka》AI 音乐人 MV 全网首发,歌手:Mureka;该作品由 AI 生成,其中音乐由 Mureka 生成,视频由 SkyReels 技术支持生成。 点开这首《童年的夜晚》,旋律柔和动听,人声温柔真挚,咬字清晰,歌词很贴近提示词的风格,完全没有 AI 感,很不错。 将生成的歌曲下载下来后,小编发现它支持音轨分离下载。普通歌曲下载只有一条音轨,而Mureka 提供音乐生成的独立的人声、伴奏等多轨输出,比 如鼓声、贝斯等,这样对编曲者来说无疑是二次创作的神器,方便用户后续混音。 什么?你说提示词生成是小case啦?来,上难度,点击高级模式,Mu ...