模型幻觉

Search documents
DeepSeek对“王一博案”道歉?假新闻!
虎嗅APP· 2025-07-03 15:02
出品|虎嗅科技组 作者|宋思杭 编辑|苗正卿 头图|视觉中国 近日,一则消息在网络上引发热议。有媒体称,"DeepSeek就AI模型违规关联王一博与'李爱庆腐败案',作出道歉。" 该媒体还表示,"DeepSeek 方面表示,因内容审核疏漏,平台在回答用户查询时,引用未经证实的网络谣言,将王一博案与首创集团原董事长李爱庆案件进行不当关联,对 其名誉造成侵害,DeepSeek已永久撤回相关失实信息,并援引北京市第三中级人民法院(2025)京03刑终174号刑事判决书明确。" 然而,经虎嗅多方核查发现,DeepSeek 官方微信公众号、官方网站、官方 X 账号(前 Twitter)等所有官方社交媒体平台,均未公开发表过任何 道歉声明。虎嗅进一步检索所有有关 "DeepSeek 就违规关联王一博与李爱庆腐败案道歉" 的新闻报道,发现没有任何一则新闻明确指出 DeepSeek 的道歉渠道,也未出现相关道歉声明的截图。 事情的戏剧性不止于此。该事件的诡异之处在于,全网几乎都认定 DeepSeek 进行了道歉。大量自媒体、网络新媒体乃至传统媒体,都在第一时 间跟进报道了这条不实消息。 以笔者个人经验而言,在日常写作工作中, ...
DeepSeek对“王一博案”道歉?假新闻!
Hu Xiu· 2025-07-03 14:51
编辑|苗正卿 头图|视觉中国 近日,一则消息在网络上引发热议。有媒体称,"DeepSeek就AI模型违规关联王一博与'李爱庆腐败案',作出道歉。" 该媒体还表示,"DeepSeek方面表示, 因内容审核疏漏,平台在回答用户查询时,引用未经证实的网络谣言,将王一博案与首创集团原董事长李爱庆案件进行不当关联,对其名誉造成侵害, DeepSeek已永久撤回相关失实信息,并援引北京市第三中级人民法院(2025)京03刑终174号刑事判决书明确。" 然而,经虎嗅多方核查发现,DeepSeek 官方微信公众号、官方网站、官方 X 账号(前 Twitter)等所有官方社交媒体平台,均未公开发表过任何道歉声明。 虎嗅进一步检索所有有关 "DeepSeek 就违规关联王一博与李爱庆腐败案道歉" 的新闻报道,发现没有任何一则新闻明确指出 DeepSeek 的道歉渠道,也未出 现相关道歉声明的截图。 事情的戏剧性不止于此。该事件的诡异之处在于,全网几乎都认定 DeepSeek 进行了道歉。大量自媒体、网络新媒体乃至传统媒体,都在第一时间跟进报道 了这条不实消息。 不仅如此,虎嗅向市面上的所有 AI 大模型询问该事件,得到的回答竟出 ...
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 10:57
VHR团队 投稿 量子位 | 公众号 QbitAI 通过"视觉神经增强"机制,直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象。 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的一种高效的解决方案VHR。 此前的主流方法主要通过对齐训练或输出层分布修正来缓解LVLMs的幻觉问题,但这些方法仅作用于模型的最终输出阶段, 未能深入干预其 内部表征和生成机制 ,因此难以实现高效且精准的幻觉抑制。 大型视觉语言模型(LVLMs)能够结合视觉和语言信息生成流畅的文本回答,但其输出常因过度依赖语言先验知识而非图像真实内容,导致 事实性错误。 在图1中,通过对照实验揭示语言先验与幻觉现象之间的关联。当给定图像并提示模型「请详细描述该图像」时,模型生成的描述中错误地包 含「椅子」和「杯子」这类图像中未出现的实体,呈现出典型的幻觉表现。 为了验证这种幻觉是否源于语言偏好,移除原始图像,重新提示模型根据此前生成的正确描述「图中有一张木桌,桌上有一个花瓶」进行补 全。结果显示,模型补全的内容与之前的幻觉部分显著重叠,这表明模型并非基于视觉依据进行推理,而是系统性地依赖语言共现模式来生成 内容。 这一现象 ...
海致科技港股IPO:自称技术实力全球领先 研发费用及费用率连续下降且低于同行
Xin Lang Zheng Quan· 2025-06-20 07:39
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 出品:上市公司研究院 作者:IPO再融资组/郑权 2025年6月17日,北京海致科技集团股份有限公司(下称"海致科技")正式向港交所递交招股说明书,招银国 际、中银国际和申万宏源香港担任联席保荐人。 海致科技自称公司是中国首家通过知识图谱有效减少大模型幻觉的AI企业,但公司该类业务(AI智能体)的收 入占比不高,2024年占比17.2%。海致科技在招股书中多次使用各种"领先"、"领军""排名第一"等表述,但事实 上,公司主营业务的国内市占率仅1.11%,AI智能体业务市占率为2.8%。 公司还称"技术优势是成功的基石",但在以研发驱动的AI行业竞争中,海致科技2023年和2024年的研发费用连 续两年下降,研发费用率更是大幅滑坡,显著低于同行公司如明略科技、星环科技等。而同期,海致科技的营 收连续两年增长,这种背离是否说明公司的业绩受研发驱动的影响不大?这有待公司给出答案。 | | | | 截至12月31日止年度 | | | | | --- | --- | --- | --- | --- | --- | --- | | | 2022年 ...
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇大模型相关论文。本文 深入 探讨了 多模态推理模型中推理能力与幻觉之间的平衡 问题 。如果您有相 关工作需要分享,请在文末联系我们! 本文只做学术分享,如有侵权,联系删文 论文作者:Chengzhi Liu等 作者单位:加州大学、斯坦福大学 项目主页:https://mlrm-halu.github.io/ 解决方案: 不如设计一个能跟踪推理长度变化的指标吧! 于是, RH-AUC 诞生了——它就像一个"动态平衡仪",能画出"推理长度vs.感知准确率"的曲线,算出曲 线下面积(AUC),数值越高,说明模型在不同推理长度下越能"稳得住视觉基本盘"。 前言 自从以 DeepSeek-R1 为代表的 推理LLM 进入研究者广泛讨论范围后, 多模态推理模型 也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷 (PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作 这里查看「多模态推理模型」热门工作汇总(上)~ ; 盘一盘「多模态推理模型」近期热门工作 (下)~ )。 今天就 ...
DeepSeek R1幻觉率降低,用户喊话:想要R2
第一财经· 2025-05-29 15:13
2025.05. 29 本文字数:1440,阅读时长大约2分钟 导读 :报告显示此前 R1模型幻觉率在21%左右。 作者 | 第一财经 刘晓洁 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这 次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。 leepSeek ? deepseek ai DeepSeek-R1-0528 is here! Try it now: chat.deepseek.com No change to API usage - docs here: api- docs.deepseek.com/guides/reasoni ... o Open-source weights: huggingface.co/ deepseek-ai/De ... 排详帖- | 排名 | 模型名称 | 机构 | 准确率 | 幻觉率 | | --- | --- | --- | --- | --- | | | | | (%) | (%) | | હિર્દ | doubao-1.5-pro-32k | 字节跳动 | 95. ...
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Di Yi Cai Jing· 2025-05-29 14:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...
医疗影像大模型,还需“闯三关”
3 6 Ke· 2025-05-18 23:14
在众多应用场景中,因病理图像具有非常大的多样性,病理大模型也被认为是医疗模型"皇冠上的明 珠"。为破解病理诊断准确性与效率难题,透彻未来研发了全球首个临床应用级病理大模型产品——透 彻洞察,基于亿级参数量和海量高精度病理数据训练,为病理医生提供精准稳健、全面快速的病理临床 诊断辅助。 2025年以来,Deepseek通过开放生态加速了算法研发与临床场景的深度融合。医疗大模型摒弃了"技术 至上"的思维,逐渐进入实用主义阶段。作为AI应用最为深入的领域之一,医学影像在大模型时代迎来 了更快速的发展。 如何增强AI模型泛化能力?大模型幻觉问题如何解决?大模型多模态数据整合的难点及解决方案有哪 些?动脉网与数坤科技首席技术官郑超、透彻未来联创兼首席技术官王书浩这两位深耕医疗AI多年的 专家们聊了聊,供行业参考。 本文主要观点如下: 01 大模型已深入医生全工作流程 医学影像人工智能模型在参数规模未达当前水平时便展现出了广阔的应用前景,现已在影像科医生的工 作全流程中实现了常态化应用。而在辅助诊断专用模型之后,数坤科技在4月发布的"数坤坤多模态医疗 健康大模型",便实现了让AI从辅助工具进化为诊疗生态的核心驱动力。 数 ...
巴菲特刚退休,他的 “替身” 就来帮大家炒股了?
Sou Hu Cai Jing· 2025-05-18 16:18
就在大家伙儿欢乐过五一的时候,94 岁高龄的 "劳模" 巴菲特突然宣布要退役了。 不过,虽然股神年龄大了要退役,他的灵魂可以一直在。 Github 上有个名叫 Virattt 的老兄,做出了一款各路股神的灵魂提取器 —— AI Hedge Fund。 反正不管是还在的,还是已经不在的,都能捞过来给咱打工。 在迫切的发财需求推动下,项目一经推出就收获了万星点赞。 AI Hedge Fund 目前一共提供 9 位明星投资人的策略,不仅有各位差友最熟悉的巴菲特,连他的老师 Graham 和 Fisher 都名列其中。 大家纷纷留言: "这个程序在A股能不能用啊?" "有没有人试过,到底表现咋样?" 和钱相关的事儿,光听别人说也不靠谱,还是得咱自己亲手来试试。 于是我们花了不少时间配置好 Linux 环境,试跑了程序进行测试。 赶在放假前,我们让程序根据 4 月 30 号之前的股票信息,预测一下 4 月 30 号到 5 月 5 号的交易策略,咱 6 号再回来验证它说的准不准。 所以测试保证真实,绝对不存在事后诸葛亮的问题。 一通操作下来,只能说,股神发力确实猛。这个假期如果按照 AI 预测做空苹果一百万,粗略点算,能 ...
整理:昨日今晨重要新闻汇总(5月18日)
news flash· 2025-05-18 00:17
金十数据整理:昨日今晨重要新闻汇总(5月18日) 国内新闻: 10. 以方称哈马斯愿意释放部分人员换取两个月停火。 1. 朱雀二号改进型遥二运载火箭发射成功。 2. 央视:歼-10CE首次实战大放异彩,引发全球军事爱好者的高度关注。 3. 5月19日至20日,深交所将在深圳举办2025全球投资者大会。 4. 天津:引导社会资本面向AI领域设立天使投资基金、创业投资基金。 5. 蚂蚁集团CTO何征宇: 大模型幻觉的源头是缺乏数据。 6. 3月中国减持189亿美元美债、持仓规模降至第三,英国升至第二。 7. 宁德时代:山东时代电池生产基地正式投产。 8. 广州房贷利率今起上调10BP,多家银行已执行。 1. 有关"普泽会",俄官方表示:有可能。 2. 特朗普:将于周一上午10点与普京通话。 3. 特朗普称若不能就乌克兰问题达成协议会对俄实施"破坏性"制裁。 4. 乌称苏梅州一公共汽车遭俄军袭击,致9死4伤。 5. 哈马斯与以色列举行新一轮加沙停火谈判。 6. 美国提议对非公民汇款征收5%的税。 7. 秘鲁中部发生6.0级地震,震源深度100千米。 8. 欧洲央行施纳贝尔:应在利率举措上保持谨慎。 国际新闻: 9. ...