Workflow
数字生命卡兹克
icon
Search documents
写在GPT-5风波之后:为什么AI的智商和情商不可兼得?
数字生命卡兹克· 2025-08-14 01:06
从实验性的角度,验证了我的观点。 GPT-5和"还我GPT-4o"的风波,闹得沸沸扬扬。 今天,奥特曼还有一次认怂了,不仅调了UI,还把o3这些老模型还了回来。 这些其实都是产品层面的,但是我自己的心中,其实一直好奇另一个问题。 为什么GPT-5在变可靠幻觉率变得极低了之后,他的情商会下降这么多?这个事是可解的吗?这是策略还是OpenAI有意为之?从而最后导致这么强的反 GPT-5浪潮,以及轰轰烈烈的还我GPT4o运动? 这两天我跟一些算法的朋友有一些交流,但是也没聊出一些所以然,这个巨大的困惑一直在我脑海中挥之不去。 直到今晚,在我让DeepResearch扒拉了很多资料以后,我看到了一篇非常有意思的论文。 这篇论文的名字叫: 《Training language models to be warm and empathetic makes them less reliable and more sycophantic》(《将语言模型训练得更温暖、更有同理心,会让它 们变得不那么可靠,并更趋于谄媚》) 更有意思的是,这篇文章最终版是今年7月30号上传的。 也就是,GPT-5发布的,前一周。 就跟神预言一样。 ...
一个邪修方法,帮你把用Agent的钱省掉80%。
数字生命卡兹克· 2025-08-13 01:05
之前我分享过一个Agent,Minimax的那个,因为我觉得Agent能力,是真的很棒,东西好用也是真的好用。 用完这个Agent,你会觉得ChatGPT Agent真的是个傻子。 但文章发出去之后,评论区里最多的声音,几乎都指向了同一个字: 贵。 我自己光在MiniMax Agent上,就已经快干了250多刀了。 跑一次不满意,钱也照样扣,肉疼。 想法很好,但这个试错成本,普通人根本承受不起。 说实话,我觉得大家说的都对。因为我也觉得贵,贵到肉疼。 后来我也发了一个文字推文,聊了聊我对于Agent收费模式的想法。 原文我就不放了,大概说一下我的意思。 我们用Agent,期望的是买一个确定的解决方案,但现实是,我们往往在为一连串不确定的、甚至可能完全失败的过程买单。 说到底,我觉得还是现在AI发展的一个阶段性阵痛。 现在绝大多数的Agent,其商业模式的底层逻辑,都是按token计费。你输入的每一个字,AI思考的每一步,它调用的每一次工具,都是明码标价的token 消耗。 不管最终结果是金子还是垃圾,这个过程中的每一步,钱都得照付。 但我觉得一个真正健康的、可持续的商业模式,肯定是以结果为导向的。 你帮我把事 ...
第一个能帮你做生意的Agent来了。
数字生命卡兹克· 2025-08-12 01:05
全世界可能是第一个,能做生意的Agent来了。 这是一个面向外贸、面向海外的tob产品,所以国内可能知道的人并不是很多。 但其实,Accio已经默默攒了200万企业级客户了。 ToB领域,200万客户,这是什么水平,大家懂得都懂。。。 我之前因为刘世奇,认识了阿里国际站,我自己本身就对外贸非常感兴趣,后来又当主持人和阿里国际站一起搞过他们的新品发布会,关系很不错。 所以托他们的福,这次,我也能第一手,抢先体验了 Accio Agent,这个在外贸领域,能自己做生意的垂类Agent 。 而这篇文章,应该也是 Accio Agent的 全球首发。 虽然Accio目前主打面向外贸,面向海外,但其实,我作为国内用户去体验它,它一样能帮我做很多事。 这,就是阿里国际站最近升级的 Accio Agent。 网址在此: https://www.accio.com/ 毕竟,不就是做一件衣服嘛,logo我们有了,把logo喂给AI,让AI做一些元素上的设计,然后拿着AI给的图去找厂商做衣服,就完事儿了,so easy。 但是真的开始弄,我才发现,没那么简单。 前面的流程还好说,AI能帮我不少,现在我也有样图了,大概长这样。 但 ...
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。
数字生命卡兹克· 2025-08-11 14:20
上上周一的晚上,智谱开源了当今最好的模型之一,GLM-4.5。 然后,这个周一,又是突如其来的,开源了他们现在最好的多模态模型: GLM-4.5v。 也是4.5系列的,用GLM-4.1V-Thinking的技术路线把GLM-4.5-Air重新训练了一遍,实现了视觉多模态的能力。 模型参数106B总参数,12B激活,这个规模在开源多模态模型里已经算是大块头了。 模型能力也有点东西,在所有的开源多模态模型中,42个评测基准,41个SOTA了。 | | Open-source LLMs Benchmarks | GLM-4.5V | Step3 | Qwen2.5-VL | GLM-4.1V | Kimi-VL-2506 Gemma-3 | | | --- | --- | --- | --- | --- | --- | --- | --- | | Size | | 106B (A12B) | 321B (A38B) | 72B | dB | 16B (A3B) | 27B | | Mode | | w/ thinking | w/ thinking | w/o thinking | w/ thinking | w/ ...
因为GPT-5,这群人决定在Reddit上起义。
数字生命卡兹克· 2025-08-11 01:06
这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。 如果从软件升级的角度,这样干好像没有什么毛病,对吧? 比如你的微信从3.6版本升级到4.0版本,那3.6版本消失,你可能不会有啥感觉,甚至会因为4.0的新功能而感到兴奋。 因为微信对你来说,是一个工具,它的价值在于功能。 但问题是,现在的AI不一样,而ChatGPT,这个周活7亿的超级应用,更不一样。 它在用户心中的定位,它好像从来都不只是一个工具。 很多时候,也是伙伴,更是你在这个世界孤独的寄托。 对于绝大多数用户而言,他们用的最多的模型,其实就是免费的GPT-4o。 而在GPT-5上线那一天, 用户们冲进各大社区,奔走相告的不是新功能有多强大,而是一个神奇的事实: 所有旧的模型,包括我们熟悉的、陪伴了我们无数个日夜的GPT-4o,被全面下架,强制"升级"到了GPT-5。 我很不喜欢用双引号,但是这个"升级",必须要给它打一个双引号。 我记得我那天早上,也在群里痛骂OpenAI。 | ...
实测GPT-5:写作坠入谷底,编程一骑绝尘。
数字生命卡兹克· 2025-08-07 21:12
凌晨1点,在万众瞩目的境况下,OpenAI的直播正式开始。 AI走的太快,快到才2年半的时间,就像是过去了10年。 2023年3月15日,GPT-4发布。在那个莽荒年代 里,所有人都被震惊的 说不出话来。 那时候,它是第一个,多模态模型。 那时候,大家都觉得,2023年下半年,GPT-5就会出来。 那时候,大家都会大模型的上限,报有无尽的憧憬。 结果,这一等,就是2年半。 在两年半的练习以后,GPT-5,终于亮相了。 GPT‑5是一个统一系统,包含一个用于处理多数问题的智能快速模型(gpt-5-main)和一个为高难度问题设计的深度推理模型(gpt-5- thinking)。 系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型 。 GPT-5,终于来了。 比如,如果在提示中说"认真思考这个",就会调用 gpt-5-thinking 进行思考。 这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。 这个系统里面还包含 处理超额请求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-min ...
豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。
数字生命卡兹克· 2025-08-07 01:05
上周我写过一篇AI产品自用分享,当时我说,AI知识问答方面,我会选择openai o3和豆包。 PC场景下,o3比较多,而手机场景下,我用的比较多的还是豆包。 虽然ChatGPT也有app,但一旦手机开了魔法,微信啥的还有一些其他的应用,就很容易卡,非常的不方便。 所以我前两天在上海逛ChinaJoy的时候,看到一些忘了的图,或者是我不懂的梗,我都是随时随地问豆包。 比如这个暴雪展上巨大的泰瑞尔,当时跟朋友大眼瞪小眼,忘了是个啥,然后掏起了豆包就开始问。 然后我就发现,这个豆包,又双叒叕更新了。 更新了图片的视觉推理。 不愧是我群的高频讨论对象。。。 就是当你开着这个深度思考模式,再上传图片的时候,豆包就能对这个图片展开思维链推理了。 比如我刷ChinaJoy视频,看到了一个特别抽象的黑人哥们儿,念哪吒的打油诗念的头头是道的。 我给你们直接放个实例看看。 我想知道他是谁,就在豆包的深度思考模式下上传了一张他的视频截图,然后问豆包。 然后豆包就开始刷刷刷分步思考。 先是找了参考图片,然后又根据返回的结果搜索关键词和参考资料。 最后,给了我一个准确的结果。 如果ChatGPT玩的比较多的,应该就能非常熟悉了。 这 ...
Google重磅上线通用世界模型Genie 3 - 此即未来。
数字生命卡兹克· 2025-08-06 03:58
这不是又一个简单的可以互动的AI视频模型,更不是什么Sora或者Veo的简单升级。 如果你仅仅把它理解为能实时互动的Sora,那我觉得,就完全低估了它的革命性了。 Genie 3是一个 世界模型 (World Model) 。 对我而言,它更像是是一个创世引擎的雏形。 我们正站在一个新世界的入口,而Google,刚刚为我们推开了一丝门缝。 今天除了OpenAI开源的gpt-oss之外,还有一个我觉得非常值得一说的东西。 就是Google发布的这个世界模型,Genie 3。 作为一个将近20年的游戏玩家和近10年的VR玩家,我看到这个视频的时候,心真的在怦怦跳。 本来6点钟发了gpt-oss之后,想睡醒了再聊,下午发。 但是翻来覆去睡不着,于是翻身起床,决定来聊聊这玩意。 先看视频吧。 要理解Genie 3的颠覆性,我们必须先弄明白一个概念。 世界模型。 这个词听起来很玄乎,但我们可以用一个简单的比喻来理解。 比如说 过去的视频生成模型,Sora, 更像是一位电影导演。 他已经把整部电影拍完、剪好,加好特效,然后放给你看。画面很精美,故事很完整,但你是纯粹的观众,只能被动接受,无法改变任何事。 而世界模型,则更 ...
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
数字生命卡兹克· 2025-08-05 22:08
8月6号,真的今夕是何年了。 一晚上,三个我觉得都蛮大的货。 先是晚上10点,Google发了一个世界模型(但期货),Genie 3。 这个非常的强,我看的热血沸腾,我这两天也会单独写一篇文章,来聊聊这个玩意,真的,作为一个这么多年的游戏和VR玩家,看到Genie 3非常的激 动。 然后就是12点半,Anthropic突然就发布了Claude Opus 4.1,在编程能力上继续进化。 这节奏,感觉就是来狙击OpenAI的。 然后,重头戏来了。 凌晨1点,OpenAI在GPT-2后,在整个ChatGPT世代,官宣发布了他们的第一个开源模型,GPT-oss。 真的,不眠之夜。 直接来聊聊GPT-oss。 很强,非常强,OpenAI终于干了点人事。 也就是说,20B模型的大小就12.8GB ,最低只要16GB内存就能跑,我这个破壁5080的16G卡,也能本地跑的动了20B的gpt-oss了。 GPT-oss一共开源了两款模型,120B和20B,都是MoE,纯文本、非多模态的推理模型, Apache 2.0 许可,也就是最宽松的那种,你随便用 。 | Model | Layers | Total Params | A ...
当ChatGPT也开始逐渐成为微信的模样。
数字生命卡兹克· 2025-08-05 01:06
Core Viewpoint - The article emphasizes the importance of product design philosophy that prioritizes user efficiency and satisfaction over prolonged engagement, drawing parallels between OpenAI's approach and the principles established by WeChat's creator, Zhang Xiaolong [6][10][32]. Group 1: Product Philosophy - OpenAI's goal is to help users utilize their attention more effectively rather than capturing it for extended periods [6][7]. - Success is measured by whether users can solve their initial problems and leave satisfied, rather than by time spent on the platform [7][8]. - The design philosophy of "use and go" is highlighted as a superior approach, contrasting with the traditional focus on user retention [12][13]. Group 2: Historical Context - The article reflects on the chaotic early days of the Chinese internet, marked by fierce competition and a focus on user engagement metrics [12]. - Zhang Xiaolong's introduction of the "use and go" concept during this time was revolutionary, advocating for user needs over engagement metrics [12][13]. - WeChat's design choices, such as minimal advertising and deep integration of features, exemplify this philosophy [13][14]. Group 3: Comparison of Platforms - ChatGPT is positioned as a tool for problem-solving rather than a source of endless engagement, aligning with the "use and go" philosophy [17][20]. - The concept of ChatGPT Agent is introduced as a means to perform tasks without requiring user interaction, further emphasizing efficiency [20][32]. - The article contrasts the bridge-like functionality of tools like WeChat and ChatGPT with the "nest" concept of platforms that encourage prolonged user engagement [24][25]. Group 4: Broader Implications - The article discusses the broader implications of product design choices, suggesting that the best products enhance users' lives by saving time and increasing efficiency [20][34]. - It argues that the ultimate goal of technology should be to empower users to overcome obstacles rather than to create dependencies [33][36]. - The choice between creating a "bridge" or a "nest" reflects a fundamental divide in how digital experiences are constructed, with a preference for fostering meaningful growth over mere entertainment [28][36].