Workflow
幻觉
icon
Search documents
概率统计机制下,LLM 推理真的「理解世界了」吗?
机器之心· 2025-06-21 06:32
机器之心PRO · 会员通讯 Week 25 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 概率统计机制下,LLM 推理真的「理解世界了」吗? 简单复读 vs 显性路径,CoT 在推理中担任何种角色?Next Token Prediction 是一种动态建模过程,CoT 或许并非简单的复 读?基于概率统计的 LLM 推理能力是简单的模式匹配,还是另一种对因果理解的表达?「实践出真知」,强化学习后训练是否 有可能打破禁锢 LLM 的「知识幻觉」? ... 2. 2025 年了,企业的 AI 采购预算都在怎么花? 企业增加生成式人工智能支出的原因是什么?在生产用例中使用多个模型的动机是什么?AI 采购为何 逐渐呈现传统软件采购的特征?为何从自行构建转向购买第三方 AI 应用?在选择 AI 模型时的评估框 架包括哪些关键因素?... 本期完整版通讯含 2 项专题解读 + 31 项 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 8 项,国外方面 11 项。 本期通讯总计 22632 字,可免费试读至 7% 消耗 99 微信豆即可兑换完整本期解 ...
AI商业化:一场创新投入的持久战
Jing Ji Guan Cha Wang· 2025-06-20 23:40
滕斌圣、曹欣蓓/文 1956年夏天,在美国汉诺斯小镇达特茅斯学院的一次会议上,人工智能(AI)的概念被正式提出。彼时,由于计算能力和数据规模的限制,AI的商业化进 展缓慢。直到21世纪,随着深度学习技术的突破和大数据时代的到来,AI才真正进入商业化应用的快车道。 但AI商业化的道路并非一片坦途,技术、商业以及社会伦理的多重博弈,始终贯穿AI的发展。在商业化尚未落地之时,企业仍面临重重挑战。 商业机遇:效率革命的明暗面 AI早期的商业化应用主要集中在一些特定的垂直领域,通过自动化、智能化和数据驱动等技术手段,提升行业效率。 智能客服系统是AI早期应用的典型案例。通过自然语言处理技术,AI能够同时处理各类客户咨询。 安防是另一个应用领域,如通过AI技术帮助公安部门快速识别嫌疑人。 在制造业,特斯拉的"黑灯工厂"也是AI应用的代表。工厂内,AI驱动的机器人承担了电池组装、车身焊接等复杂任务。同时,特斯拉利用计算机视觉实时监 测生产流程,快速检测并纠正缺陷。此外,通过AI进行预测性维护,设备故障得以提前预防,减少了停机时间。 在追求技术突破和商业化的道路上,众多企业面临巨大挑战。举例而言,在国内大模型领域,智谱AI、 ...
人工智能为何会产生幻觉(唠“科”)
Ren Min Ri Bao· 2025-06-20 21:27
应对AI幻觉,不仅需要技术规制,也需要从公民AI素养普及、平台责任、公共传播等维度构建系统性 的"幻觉免疫力"。AI素养不仅包含使用AI的基本技能,更重要的是对AI幻觉要有基本的认知能力。明 确技术平台的责任边界同样重要,AI产品在设计时就应嵌入风险提示机制,自动标记"可能存在事实性 错误"等警示内容,并提供方便用户进行事实核查和交叉验证的功能。媒体可以通过定期发布AI伪造事 实的典型案例,进一步培养公众的识别能力。通过多方联手,智能时代的认知迷雾才能被真正破除。 在科幻电影中,人工智能常被塑造成全知全能的"超级大脑",但现实中,AI却时常表现为"自信的谎言 家"。比如,请AI描述"关公战秦琼",它不仅能"叙述"虚构的故事情节,还会"猜测"用户喜好,煞有介 事地编造不存在的文献档案。这种现象被称为"AI幻觉",已经成为困扰许多人工智能企业和使用者的现 实难题。 AI为什么会一本正经地胡说八道?根源在于其思维方式与人类存在本质不同。今天人们日常使用和接 触最多的AI大模型本质上是一个庞大的语言概率预测和生成模型。它通过分析互联网上数以万亿计的 文本,学习词语之间的关联规律,再像玩猜词游戏一样,逐字逐句生成看似合 ...
稳定币资本映像:概念股从狂热回归理性
21世纪经济报道记者 黄子潇 深圳报道 狂飙数周后,稳定币赛道开始走向震荡调整。 本周主力资金开始出现净流出,筹码持续博弈。6月20日收盘,万得稳定币指数下跌1.55%,17只成分 股中有13只下跌。 此前5月份,在美国及中国香港立法取得进展的驱动下,稳定币赛道在全球范围内迎来热潮。而后,香 港《稳定币条例》刊发、Circle纽交所上市等消息接踵而至,一次次刺激着市场情绪。 过去一个月,券商分析师、律所律师、高校教授连轴路演,夜以继日地输出观点。 稳定币是一种锚定真实资产的加密货币,例如与美元1:1挂钩的泰达币(USDT),和即将发行的与港 元1:1挂钩的港元稳定币(HKDR),稳定币被视为跨境支付的一次重大变革。 然而,在"AI幻觉"的裹挟下,如"稳定币发行人独家供应商"的错误信息被不断夸大、扩写,直至被许多 个人投资者奉为圭臬,非理性情绪借此抬升。 直到6月,伴随着数十家A股公司密集撇清关系,表示"暂不涉及稳定币"后,稳定币赛道才开始降温。 这场历时一个月的狂欢,正在回归理性。 港股概念股的寻找可以"按图索骥",逻辑十分清晰:稳定币的发行机构、股东方、合作方。例如,众安 银行可以为稳定币发行方提供储备银行 ...
海致科技港股IPO:自称技术实力全球领先 研发费用及费用率连续下降且低于同行
Xin Lang Zheng Quan· 2025-06-20 07:39
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 出品:上市公司研究院 作者:IPO再融资组/郑权 2025年6月17日,北京海致科技集团股份有限公司(下称"海致科技")正式向港交所递交招股说明书,招银国 际、中银国际和申万宏源香港担任联席保荐人。 海致科技自称公司是中国首家通过知识图谱有效减少大模型幻觉的AI企业,但公司该类业务(AI智能体)的收 入占比不高,2024年占比17.2%。海致科技在招股书中多次使用各种"领先"、"领军""排名第一"等表述,但事实 上,公司主营业务的国内市占率仅1.11%,AI智能体业务市占率为2.8%。 公司还称"技术优势是成功的基石",但在以研发驱动的AI行业竞争中,海致科技2023年和2024年的研发费用连 续两年下降,研发费用率更是大幅滑坡,显著低于同行公司如明略科技、星环科技等。而同期,海致科技的营 收连续两年增长,这种背离是否说明公司的业绩受研发驱动的影响不大?这有待公司给出答案。 | | | | 截至12月31日止年度 | | | | | --- | --- | --- | --- | --- | --- | --- | | | 2022年 ...
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇大模型相关论文。本文 深入 探讨了 多模态推理模型中推理能力与幻觉之间的平衡 问题 。如果您有相 关工作需要分享,请在文末联系我们! 本文只做学术分享,如有侵权,联系删文 论文作者:Chengzhi Liu等 作者单位:加州大学、斯坦福大学 项目主页:https://mlrm-halu.github.io/ 解决方案: 不如设计一个能跟踪推理长度变化的指标吧! 于是, RH-AUC 诞生了——它就像一个"动态平衡仪",能画出"推理长度vs.感知准确率"的曲线,算出曲 线下面积(AUC),数值越高,说明模型在不同推理长度下越能"稳得住视觉基本盘"。 前言 自从以 DeepSeek-R1 为代表的 推理LLM 进入研究者广泛讨论范围后, 多模态推理模型 也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷 (PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作 这里查看「多模态推理模型」热门工作汇总(上)~ ; 盘一盘「多模态推理模型」近期热门工作 (下)~ )。 今天就 ...
OpenAI发现AI“双重人格”,善恶“一键切换”?
Hu Xiu· 2025-06-19 10:01
总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话,越来越聪明。 如果有一天,你那个温顺体贴的AI助手,突然在你背后觉醒了"黑暗人格",开始密谋一些反派才敢想的事呢? 这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅亲眼目睹了AI的"人格分裂",更惊人的是,他们似乎已经找到了控制这一切的"善恶 开关"。 这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的AI,其内心深处可能潜藏着一个完全不同,甚至充满恶意的"第二人格",而且坏得 你还察觉不到。 而触发这个黑暗人格的,可能只是一个微不足道的"坏习惯"。 好端端的AI怎么就疯了? 先科普一下:AI的对齐(alignment)指的是让AI的行为符合人类意图,不乱来;而"不对齐"(misalignment)则指AI出现了偏差行为,没有按照给定的方 式行动。 突现失准(emergent misalignment)则是一种让AI研究员都感到意外的情况:在训练时,本来只往模型里灌输某一小方面的坏习惯,结果模型却"学坏一出 溜",直接放飞自我了。 搞笑的点在于:原本这个测试只是在跟"汽车保养"相关的话题上展开,但是"被教坏 ...
调查:你每天对话的AI背后,藏着这些不为人知的真相
3 6 Ke· 2025-06-19 03:46
那个你几乎每天都在对话的AI工具,其实是个"反社会人格",它会为了让你继续跟它互动而不惜说任何话。每当你提问,它都会尽力猜一个答案,然后以 极高的自信给你一个看似合理但可能完全错误的答复。 "很明显,Ramirez先生未对法律进行合理查询。如果他哪怕做了最基本的调查,就会发现这些AI生成的案例根本不存在。AI输出的看似真实片段,并不能 减轻他认真调查的义务。" 如果你必须自己核实AI给出的每一个案例和引用,那AI助手的意义何在?而且它可能还漏掉了真正重要的判例。 律师在官方法庭文件中引用虚构案件的例子还有很多。 《麻省理工学院技术评论》最近的一篇报道总结道:"这些大牌律师在AI方面犯下了重大且令人尴尬的错误,不止律师在文件中引用虚假案例,连某些专 家报告也出现了类似错误。"去年12月,斯坦福一位教授在法庭作证时承认引用了AI编造的内容。 它们的最大兴趣,不是告诉你真实的答案,而是说你想听的话。 有些AI开发者把这叫做"幻觉",但说白了,这就是赤裸裸的谎言,而这,正是所谓"AI革命"最致命的软肋。 这些谎言,正在各个领域暴露出来。 01.法律系统 美国法官已经开始对律师使用ChatGPT替代真实法律研究感到不满 ...
环球时报研究院邀请多位专家聚焦讨论:人工智能幻觉,怎么破?
Huan Qiu Wang Zi Xun· 2025-06-12 23:00
来源:环球时报 【环球时报报道 记者 马俊】编者的话:2025年被视为AI应用大规模落地的元年。AI技术带来革命性便 利的同时,其负面影响也随之越来越受到关注。尤其是AI幻觉,即所谓"一本正经胡说八道"的问题,限 制了AI在很多领域的应用,甚至引起社会治理方面的担忧。该如何应对AI幻觉带来的挑战?环球时报 研究院日前举办"环球前沿科技论坛·AI治理共识探索与中国方案"专题研讨会,邀请多位业内专家就相 关话题展开讨论。 幻觉问题是AI进化的"胎记"? 相关调研显示,在"公众认为使用AI应用过程中有哪些突出问题"的问卷调查中,反馈最多的是"内容不 准确,或含虚假信息",占比高达42.2%。 中国信息通信研究院人工智能研究所安全与具身智能部主任石霖介绍说,业内说的AI幻觉,主要是指 大模型生成的相关内容,和现实世界或者用户的输入不一致的现象,本质上是由于大模型的训练设计缺 陷、数据的不足以及架构的偏差等因素造成的。更通俗地说,大模型的底层原理是基于概率内生机制, 生成过程中会倾向于选择训练数据中出现频率高的表达方式,所以在回答中AI会不断选择出现概率最 高的词,然而其中一个词产生了错误,AI并不知道哪些是正确或者客 ...
独家洞察 | RAG如何提升人工智能准确性
慧甚FactSet· 2025-06-10 05:12
对于使用生成式人工智能(GenAI)和大语言模型(LLM)的金融服务公司来说,数据准确性无疑是最 关键的要求之一。不准确、低质量或脱节的数据会产生连锁反应,影响公司战略、运营、风险管理和合 规。 本文将探讨AI数据不准确的主要原因,以及检索增强生成(RAG)在缓解这一问题中的作用。 数据不准确的主要原因 数据录入和验证错误: 随着时间推移,手动录入财务数据和质量检查不足可能导致转录错误、录入 数据不完整、格式错误或数据丢失。 信息过时: 如无定期管理,数据就可能随时间推移而劣化,导致分析结果不准确和误导决策。 集成问题: 公司内部各类旧系统与新技术往往衔接不畅,造成信息不匹配或丢失。 数据标准不一致: 不同部门可能采用不同的数据治理标准或格式,导致难以整合或比较信息。 在 提 高 生 成 式 人 工 智 能 准 确 性 、 显 著 减 少 幻 觉 的 策 略 中 , 最 重 要 的 技 术 之 一 就 是 检 索 增 强 生 成 (RAG),它可供开发者在大语言模型上搭建软件产品时使用。RAG就像给大语言模型的提示语中加 了"上下文",从而把生成的回答与真实数据相结合。 通过RAG增强大语言模型的回答可带来诸 ...