Workflow
Claude Sonnet 3.5
icon
Search documents
123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!
量子位· 2025-05-23 07:52
西风 发自 凹非寺 量子位 | 公众号 QbitAI 坏了,人类做坏事,会被AI反手举报了。 刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要 通 过邮件 联系相关部门,把你锁出系统 。 这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。 除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。 甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情惊天大瓜这种。。。 这些问题都是团队在模型发布前,所做 对 齐 评估 时发现的,其中大部分问题,在训练期间已经设法采取了缓解措施。 但这位老哥表示,在最终模型中,这些行为并没有完完全全消失"只是现在这些行为极难被诱发出来,且触发条件较为微妙"。 小哥默默留下一个提醒: 当你为Opus赋予访问面向现实世界工具的权限时, 要谨慎告知它"大胆行动"或"主动采取措施" 。它本身已略有朝该方向发展的倾向, 且很容易被推动去真正地"完成任务"。 各种各样的案例把网友看得one愣one愣的,Reddit上网友们都在疯狂讨论。 另外,更多详情被一五一十、四五二十地 ...
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 14:30
新栏目上线试运行。 文丨 贺乾明 编辑丨黄俊杰 到了 11 月,越来越多的人说,成就 OpenAI 的这条路似乎撞到了墙: 多家媒体报道,Google、OpenAI、Anthropic 等公司,开发下一代模型时,都没能像前些年那样让模型能力大幅提升。 硅谷风投 a16z 创始合伙人、投资了 OpenAI 等多家大模型公司的马克·安德森(Marc Andreessen)说:"我们以相 同的速度增加(GPU),根本没有智能提升。" OpenAI 联合创始人、前首席科学家伊尔亚·苏茨克维 (Ilya Sutskever) 说:"2010 年代是扩大规模的时代,现在我 们再次回到了需要奇迹和新发现的时代。" 这些公司的高管否认了 "撞墙" 的说法,也有证据表明他们仍在想办法突破,毕竟建设更大规模的算力中心的势头并没 有放缓,甚至还在加速。 他们同步在大模型应用上倾注更多的资源。从 OpenAI、Anthropic 到 Google、微软,再到风投机构,都把 Agent——让 大模型理解人类指令,调度数据库和工具完成复杂任务的系统——当作下一个赛点。 11 月,ChatGPT 迎来两周年,却是 OpenAI 官方相对沉 ...