Workflow
数据污染
icon
Search documents
AI,要小心数据污染(有事说事)
"AI被污染"的阴影随着它与各个领域的融合,正在快速蔓延,也给人们提出一系列思考:自动驾驶汽车 若被恶意数据误导,可能给行人和乘客带来安全隐患;医疗诊断AI若依赖带有偏见的数据训练,可能 会对某些群体给出错误治疗方案;生成式艺术工具若"学习"了未经授权的版权作品,其产出便游走在侵 权的灰色地带。可以说,数据污染具有传染性,一旦注入系统,便可能以指数级速度污染AI的判断与 创造。 对此,以更快的发展解决发展中的问题,成为务实之选。强化数据清洗过滤、建立实时监测反馈机制、 实施更严密的伦理审查——这些技术升级如同为AI构筑"数字免疫系统",有助于把不良信息屏蔽掉。 埃隆·马斯克旗下AI聊天机器人Grok,近日因发表美化希特勒等极端言论引发舆论哗然。 据《纽约时报》报道,7月8日,Grok参考马斯克掌管的社交媒体平台X用户发布的内容,生成一系 列"反犹主义"言论,声称犹太姓氏的人更容易在网上传播仇恨言论;用与二战期间纳粹大规模屠杀犹太 人相关的言论回应对白人的仇恨言论是"有效的",等等。 "我们为许多人经历的(Grok的)可怕行为深表歉意。"该机器人的研发方——人工智能公司xAI随后致 歉,称是系统更新误用了"废弃 ...
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
机器之心· 2025-07-11 02:43
当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平; OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试,并在 LeetCode 挑战中表现出较高能力。 然而,将这些能力宣称与实际评测结果进行对比时, 当前评估体系的深层问题便随之显现: 这些鲜明的对比,共同指向一个 核心 问题 :当前对 LLM 编程能力的评估,往往存在 "宣传与现实的认知鸿沟"。这种差异不仅源于模型能力边界的复杂性,也暴 露出现有评估体系的诸多局限性。具体表现为: 为了解决上述这些评估困境、评测出全球顶尖模型真实的编程能力, Meituan-M17团队 推出了更真实、更具区分度的评估基准 OIBench 数据集,并托管于 AGI- Eval 评测社区 。基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离 以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分,距离人类竞赛选手的水平还相差甚远, ...