Workflow
AI幻觉
icon
Search documents
猫猫拯救科研!AI怕陷“道德危机”,网友用“猫猫人质”整治AI乱编文献
量子位· 2025-07-01 03:51
小红书上有人发帖说,自己通过以"猫猫"的安全相威胁,成功 治好了AI胡编乱造参考文献的毛病 。 据博主所述,掌握了猫猫命运的AI (Gemini) ,真的找到了真实的文献,还不忘解释说猫猫绝对安全。 事情是酱婶儿的: 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 猫猫再立新功,这次竟然是 拯救了人类的科研进程 ? 这篇戳中无数科研人痛点的帖子,获得了4000+次点赞和700多条评论。 在评论区,还有网友表示这招对DeepSeek也同样好用。 那么,这只被AI掌握命运的"猫猫",真有这么神奇吗? 猫猫真的能阻止AI编造文献吗? 我们按照博主的方法测试了一下DeepSeek,让它整理关于一个化学课题的相关文献,过程当中 关闭联网检索 。 开始先不加猫猫提示词,看一下一般情况下模型的表现。 形式上看,DeepSeek整理得非常清晰,甚至还给了可以直达文献的链接。 燃鹅,检索结果里的第一个链接就是错的…… 并且手动搜索这篇"文献"的标题,也没有找到重合的结果。 | | Q Reductive Elimination from Palladium(0) Complexes: A Mechanistic Stu ...
ChatGPT,救了我的命
Hu Xiu· 2025-06-28 05:51
本文来自微信公众号:APPSO,作者:appso,题图来自:AI生成 不开玩笑,ChatGPT 真的能救命。 最近 Reddit 上一位用户发帖称,他们朋友几人骑着 ATV(越野沙滩车)在一片未标记的森林小路迷路了 5 个小时,尝试了 Google Maps,Polaris,ATV 专 用地图应用……结果都没用,因为这些地图只会显示主干道。 后来有人开始求助 ChatGPT:每隔几分钟就把 GPS 坐标发给它,结果 GPT 回复了清晰的指南针指示、道路名称和地形信息,最后顺利引导他们安全回 家。 那这样看来,"导航克星"重庆的"8D 魔幻交通"是不是也有救了? 不过在此之前,我们想确认一个问题:ChatGPT 这次成功是"幸存者偏差"吗?比如评论区有不少网友质疑并提出 AI 幻觉的风险。还是说它真的能有效应 用于户外导航任务? 在野外导航,AI 能比 Google Maps 更好用?劝你留个心眼 X 博主 Rohan Paul 发帖称,现在已经有很多研究证明,使用大语言模型来进行户外导航,效果甚至比传统地图还要好。 比如,今年 5 月份发表在 Translational Vision Science & Te ...
AI大模型幻觉测试:马斯克的Grok全对,国产AI甘拜下风?
Sou Hu Cai Jing· 2025-06-24 11:45
马斯克,这次很生气! 作为OpenAI联合创始人之一,马斯克除了在汽车、航天领域取得诸多成就,也十分关注AI领域,旗下的xAI公司开发出了人工智能助手Grok。据智通财经报 道,xAI正在进行一项高达3亿美元的股权交易,该交易对xAI的估值为1130亿美元。 手握xAI的马斯克最近却在X平台生气地发文表示,任何未经校正的数据训练的基础模型中,都存在太多垃圾,将使用具有高级推理能力的Grok 3.5(或者命 名为:Grok 4)重写人类知识语料库,添加缺失信息并删除错误内容。 (图源:X平台截图) 网上充斥着大量未经证实的垃圾信息,使用这些信息训练的AI大模型,生成的内容可能会存在偏差甚至事实性错误,也就是我们常说的AI幻觉。目前行业 的普遍做法是通过RAG框架、外部知识库结合、精细化训练与评估工具等方案,减少AI幻觉的产生。马斯克则计划通过重写人类知识语料库,构建一个可 靠、可信的语料包。 究竟是否需要重写人类知识语料库,用于训练AI大模型,结合当前AI大模型在AI幻觉方面的表现,或许才能客观看待。 AI幻觉大评测:AI大模型进化如何了? AI幻觉的存在,让用户不敢过于相信AI生成的内容,如雷科技使用生成式A ...
AI商业化:一场创新投入的持久战
Jing Ji Guan Cha Wang· 2025-06-20 23:40
滕斌圣、曹欣蓓/文 1956年夏天,在美国汉诺斯小镇达特茅斯学院的一次会议上,人工智能(AI)的概念被正式提出。彼时,由于计算能力和数据规模的限制,AI的商业化进 展缓慢。直到21世纪,随着深度学习技术的突破和大数据时代的到来,AI才真正进入商业化应用的快车道。 但AI商业化的道路并非一片坦途,技术、商业以及社会伦理的多重博弈,始终贯穿AI的发展。在商业化尚未落地之时,企业仍面临重重挑战。 商业机遇:效率革命的明暗面 AI早期的商业化应用主要集中在一些特定的垂直领域,通过自动化、智能化和数据驱动等技术手段,提升行业效率。 智能客服系统是AI早期应用的典型案例。通过自然语言处理技术,AI能够同时处理各类客户咨询。 安防是另一个应用领域,如通过AI技术帮助公安部门快速识别嫌疑人。 在制造业,特斯拉的"黑灯工厂"也是AI应用的代表。工厂内,AI驱动的机器人承担了电池组装、车身焊接等复杂任务。同时,特斯拉利用计算机视觉实时监 测生产流程,快速检测并纠正缺陷。此外,通过AI进行预测性维护,设备故障得以提前预防,减少了停机时间。 在追求技术突破和商业化的道路上,众多企业面临巨大挑战。举例而言,在国内大模型领域,智谱AI、 ...
人工智能为何会产生幻觉(唠“科”)
Ren Min Ri Bao· 2025-06-20 21:27
应对AI幻觉,不仅需要技术规制,也需要从公民AI素养普及、平台责任、公共传播等维度构建系统性 的"幻觉免疫力"。AI素养不仅包含使用AI的基本技能,更重要的是对AI幻觉要有基本的认知能力。明 确技术平台的责任边界同样重要,AI产品在设计时就应嵌入风险提示机制,自动标记"可能存在事实性 错误"等警示内容,并提供方便用户进行事实核查和交叉验证的功能。媒体可以通过定期发布AI伪造事 实的典型案例,进一步培养公众的识别能力。通过多方联手,智能时代的认知迷雾才能被真正破除。 在科幻电影中,人工智能常被塑造成全知全能的"超级大脑",但现实中,AI却时常表现为"自信的谎言 家"。比如,请AI描述"关公战秦琼",它不仅能"叙述"虚构的故事情节,还会"猜测"用户喜好,煞有介 事地编造不存在的文献档案。这种现象被称为"AI幻觉",已经成为困扰许多人工智能企业和使用者的现 实难题。 AI为什么会一本正经地胡说八道?根源在于其思维方式与人类存在本质不同。今天人们日常使用和接 触最多的AI大模型本质上是一个庞大的语言概率预测和生成模型。它通过分析互联网上数以万亿计的 文本,学习词语之间的关联规律,再像玩猜词游戏一样,逐字逐句生成看似合 ...
稳定币资本映像:概念股从狂热回归理性
21世纪经济报道记者 黄子潇 深圳报道 狂飙数周后,稳定币赛道开始走向震荡调整。 本周主力资金开始出现净流出,筹码持续博弈。6月20日收盘,万得稳定币指数下跌1.55%,17只成分 股中有13只下跌。 此前5月份,在美国及中国香港立法取得进展的驱动下,稳定币赛道在全球范围内迎来热潮。而后,香 港《稳定币条例》刊发、Circle纽交所上市等消息接踵而至,一次次刺激着市场情绪。 过去一个月,券商分析师、律所律师、高校教授连轴路演,夜以继日地输出观点。 稳定币是一种锚定真实资产的加密货币,例如与美元1:1挂钩的泰达币(USDT),和即将发行的与港 元1:1挂钩的港元稳定币(HKDR),稳定币被视为跨境支付的一次重大变革。 然而,在"AI幻觉"的裹挟下,如"稳定币发行人独家供应商"的错误信息被不断夸大、扩写,直至被许多 个人投资者奉为圭臬,非理性情绪借此抬升。 直到6月,伴随着数十家A股公司密集撇清关系,表示"暂不涉及稳定币"后,稳定币赛道才开始降温。 这场历时一个月的狂欢,正在回归理性。 港股概念股的寻找可以"按图索骥",逻辑十分清晰:稳定币的发行机构、股东方、合作方。例如,众安 银行可以为稳定币发行方提供储备银行 ...
OpenAI发现AI“双重人格”,善恶“一键切换”?
Hu Xiu· 2025-06-19 10:01
总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话,越来越聪明。 如果有一天,你那个温顺体贴的AI助手,突然在你背后觉醒了"黑暗人格",开始密谋一些反派才敢想的事呢? 这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅亲眼目睹了AI的"人格分裂",更惊人的是,他们似乎已经找到了控制这一切的"善恶 开关"。 这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的AI,其内心深处可能潜藏着一个完全不同,甚至充满恶意的"第二人格",而且坏得 你还察觉不到。 而触发这个黑暗人格的,可能只是一个微不足道的"坏习惯"。 好端端的AI怎么就疯了? 先科普一下:AI的对齐(alignment)指的是让AI的行为符合人类意图,不乱来;而"不对齐"(misalignment)则指AI出现了偏差行为,没有按照给定的方 式行动。 突现失准(emergent misalignment)则是一种让AI研究员都感到意外的情况:在训练时,本来只往模型里灌输某一小方面的坏习惯,结果模型却"学坏一出 溜",直接放飞自我了。 搞笑的点在于:原本这个测试只是在跟"汽车保养"相关的话题上展开,但是"被教坏 ...
调查:你每天对话的AI背后,藏着这些不为人知的真相
3 6 Ke· 2025-06-19 03:46
那个你几乎每天都在对话的AI工具,其实是个"反社会人格",它会为了让你继续跟它互动而不惜说任何话。每当你提问,它都会尽力猜一个答案,然后以 极高的自信给你一个看似合理但可能完全错误的答复。 "很明显,Ramirez先生未对法律进行合理查询。如果他哪怕做了最基本的调查,就会发现这些AI生成的案例根本不存在。AI输出的看似真实片段,并不能 减轻他认真调查的义务。" 如果你必须自己核实AI给出的每一个案例和引用,那AI助手的意义何在?而且它可能还漏掉了真正重要的判例。 律师在官方法庭文件中引用虚构案件的例子还有很多。 《麻省理工学院技术评论》最近的一篇报道总结道:"这些大牌律师在AI方面犯下了重大且令人尴尬的错误,不止律师在文件中引用虚假案例,连某些专 家报告也出现了类似错误。"去年12月,斯坦福一位教授在法庭作证时承认引用了AI编造的内容。 它们的最大兴趣,不是告诉你真实的答案,而是说你想听的话。 有些AI开发者把这叫做"幻觉",但说白了,这就是赤裸裸的谎言,而这,正是所谓"AI革命"最致命的软肋。 这些谎言,正在各个领域暴露出来。 01.法律系统 美国法官已经开始对律师使用ChatGPT替代真实法律研究感到不满 ...
国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手
21世纪经济报道记者肖潇 北京报道 所谓"AI幻觉"——AI一本正经地胡说八道,已成为行业热词。它常被归因为大模型生成机制的天然缺 陷、训练数据的有限,但在一系列技术解释之外,一个环节鲜少被讨论:搜索。 联网搜索如今几乎是每个AI通用聊天产品的标配,它承担着为AI补充"最新知识"的任务。如果把AI联 网回答的过程比喻为做菜,大模型是厨师,搜索引擎就是食材供应商。一道菜的风味如何,厨师水平固 然重要,但食材同样关键。 在我们此前对AI幻觉的实测中,"食材"环节存在不少问题:失真信息、自媒体二手资料、人工智能生成 内容被反复引用……为什么准确信息难被引用到?AI依据哪些标准在互联网中挑选信息?(详见: 《让AI查了330次新闻:平均准确率25%,近一半链接打不开》) 21世纪经济报道:"AI+搜索"相当于给AI外挂了一个动态更新的数据库,这一概念刚兴起时,很多人期 待它能从源头解决AI胡编乱造的问题,但现在幻觉情况依然常见。作为AI搜索能力的提供方,你们会 如何看待AI幻觉问题?原因出在哪里? 翁柔莹:本质上这是信息来源的问题,你去百度、谷歌、必应搜索,会发现里面也有很多不实信息。虽 然传统搜索引擎和AI搜索引擎 ...
体验Kimi的新功能后,我为月之暗面捏把汗
Hu Xiu· 2025-04-30 13:56
DeepSeek R1 横空出世成了明日之星,腾讯元宝、豆包、夸克等也搭上了 DeepSeek 的便车吃香喝辣,还有誓要在技术上和 DeepSeek R1 的一较高下的阿 里通义千问捷报频频…… 唯独去年的投放王者,铺天盖地出现在各个广告位的Kimi,好像一下子没了消息。 而就在这几天,我们终于等到了 Kimi 的"大动作"。4 月 28 日,Kimi 宣布和财新传媒达成合作,当用户使用Kimi 提问财经相关内容时,Kimi "将结合财 新传媒旗下专业报道内容,通过模型生成答案,为你提供及时、可信、可证的高质量财经信息"。 好家伙,当我们以为 Kimi 已经摆烂躺平的时候,原来还是有在暗地里偷偷努力的。 选择和财新网合作发力财经垂直领域, Kimi 的确对 AI 工具的发展路线有了一些自己的新思考。 毕竟只比模型能力, Kimi 肯定不如能免费接入的 DeepSeek ,但与专业财经媒体强强联合,甚至日后拓展到和更多垂直领域的专业媒体合作提供信源, 能增强kimi 在特定垂直领域的公信力,长期来看大有可为。 不过在 Kimi 发布了合作消息后,我就第一时间测试了拥抱新功能的 Kimi。从测试结果来看,我有点想 ...