算法

Search documents
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 09:34
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超 越了人类平均水平。这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。 更进一步的,在结合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平台上获得了超过 2700 的 Elo 评分 —— 这个分数已跻身参赛者前 0.1%。 然而,这些简单的量化评估,真的能体现模型解决复杂问题的能力吗?我们不妨先问几个问题:LLMs 真的具备与顶级人类选手相当的推理能力吗?模型的高分究 竟有多少来自真实的推理能力,又有多少是依赖外部工具的结果? 为了解答上述问题,来自纽约大学、普林斯顿大学等 8 家机构的研究者提出了 LiveCodeBench Pro ,这是一个极具挑战性的竞技编程基准测试。 值得一提的是,这项研究有多位参加过国际算法竞赛。例如,作者之一、纽约大学本科生 Zihan Zheng 曾代表学校参加 ICPC 世界总决赛。 LiveCodeBench Pro 收录了 5 ...
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 09:17
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁 等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。 到底是什么让一众领先模型一败涂地? LiveCodeBench Pro :一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的 实时 基准测试。 题库还 每日更新 ,来预防LLMs"背题",不得不说这太狠了(doge)。 谢赛宁虽然也参与了这项工作,但他谦虚地说自己只是个啦啦队成员。 此前有报道称,LLM编程现在已超越人类专家,但本次测试结果表明并非如此。 表现最佳的模型,在中等难度题上的一次通过率 仅53% ,难题通过率更是为0。 即使是最好的模型o4-mini-high,一旦工具调用被屏蔽,Elo也只有 2100 ,远低于真正大师级的2700传奇线。 | Model | Hard | Medium | Easy | Rating | Pct.% | AvgTok | AvgCost | | --- | --- | --- | --- | --- | --- | --- | ...
我在618主场,和3位顶尖技术博士聊了聊
量子位· 2025-06-18 07:49
How time flies!又到了一年一度的618。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 今年你下单了吗?抢到心仪的商品了吗?快递收得顺利不?血拼了大半个月的我有一个最大的体会,就是今年的618还是那么热闹,但有些东 西变了。 你可能也注意到这些变化—— 商 品推荐越来越命中心趴,物流越来越快,甚至智能外呼、客服机器人,也越来越像个真人了。 技术不是"内卷""压榨"或"花样叙事"的工具,而是切实服务着美好生活。 体验更好,出错更少,意味着背后的技术进步得更多,也越能说明有人在背后顶住了压力。 618是京东的生日,也是京东首次以线上促销形式庆祝这一日期,推出了618年中促销活动,通过限时秒杀等简单玩法吸引消费者。 一眨眼,我们已经在这个特别的时间点买买买了二十多年。 趁着这个节点,今年,我们 找来了三位分别来自京东零售、物流、科技业务的技术人,聊了聊他们在幕后做的事 。 长林丨零售:不是造一个新模型,而是让模型用得起、落得下 大家在京东选购商品时可能会留意到,不同商家架上的同类商品会自动被归在一起,方便大家快速对比选购性价比高的商品,商家也会被激励 提供更具竞争力的价格和服务。 这背后其实是 ...
整合多源植物转录组数据,山东理工大学等构建PlantLncBoost模型,跨物种lncRNA预测准确率最高达96%
3 6 Ke· 2025-06-18 07:44
山东理工大学联合北京林业大学、广东省农业科学院、巴西圣保罗大学、英国罗莎琳德富兰克林医科大学、瑞典于默奥大学的研究团队等科研机构,共同 构建了 PlantLncBoost 模型,为解决植物 lncRNA 鉴定的泛化性难题提供了系统性解决方案。 在植物科学领域,长非编码 RNA(lncRNA)的研究正逐渐成为焦点。2020 年发表的一篇关于植物 lncRNA 研究的论文指出,lncRNA 在植物的生长发育 和环境适应过程中发挥着关键作用。例如,有研究发现,某些 lncRNA 能够通过与蛋白质相互作用来调控植物的开花时间,从而影响植物的繁殖策略。这 种精细的调控机制对于理解植物如何应对气候变化等环境压力具有重要意义。 随着技术的进步,越来越多的植物 lncRNA 被鉴定并表征。然而,由于 lncRNA 在不同物种之间的序列保守性较差,为机器学习模型的泛化能力带来了重 大挑战。以早期广泛应用的 CPC 和 CPAT 工具为例,其在禾本科与豆科植物间的交叉验证准确率较同源物种下降 35%-40%,暴露出序列特征泛化能力不 足的核心问题。尽管提升模型(如 XGBoost、LightGBM)在处理高维数据时表现出更好的抗 ...
36氪对话元鼎智能CEO汪洋:攻占欧美10万+泳池社区店,捏住行业命脉
3 6 Ke· 2025-06-18 02:58
作者 | 林晴晴 编辑 | 袁斯来 当扫地机器人卷向"无人区"时,水面之下,一场围绕全球3000万个私人泳池的智能硬件争夺战正悄然升 级。 Statista数据显示,全球泳池机器人市场正以32.1%的年复合增长率扩张,2024年渗透率突破25%关键节 点,预计2028年市场规模将达132亿美元。 这一原本由Maytronics、Fluidra等行业巨头主导的赛道,近年涌现出三类来自中国的新势力。 以元鼎智能(Aiper)为代表的新锐,押注无线化、智能化创新;以深圳思傲拓(Solavto)为代表的低 价策略冲击者,主攻线上份额;隐身在亚马逊生态中的白牌商家继续以低价换销量。三方在技术路线、 渠道策略与商业模式上展开多维竞争,共同推动行业洗牌加速。 Google品牌搜索量统计,Aiper在澳大利亚份额从2024年1月的26%升至12月的59%,同期Dolphin从62% 降至33% 。最近,其第三代Scuba X系列产品搭载的水下无线通信技术通过IEEE认证,让元鼎智能成为 少数突破传统巨头专利墙的中国公司。 当前,泳池机器人赛道渗透率已逼近30%,在这个拐点上,行业或将从"增长优先"转向"效率优先"。中 国品牌 ...
经济日报:算法“破茧”非一日之功
news flash· 2025-06-17 23:19
经济日报文章称,算法推荐技术已深度融入经济社会发展的各个领域和场景。它通过抓取用户日常使用 数据,分析用户行为、习惯和偏好,从而精准提供信息、娱乐、消费等各类服务。可以说,算法推荐在 很大程度上帮助用户过滤掉冗余信息,提高了信息获取效率,解决了信息过载问题,成为平台吸引高黏 性用户、驱动增长的重要方式。但作为一种技术工具,算法推荐也是一把"双刃剑",一旦运用失范,不 可避免地会产生一些乱象。首要问题是同质化内容过多,形成"信息茧房"。低俗信息现象也不容轻视。 更大的危害在于破坏平台的内容创作生态。当"劣币驱逐良币"的势头一开,平台的优质创作者、优质用 户也会逐渐流失,给平台健康发展造成重创。 ...
量子计算机能秒解密码吗
Jing Ji Ri Bao· 2025-06-17 22:26
另一方面,量子计算并非万能。为了应对可能的威胁,如今各国都在加紧研发并推广"抗量子加密",目 前中国和美国的抗量子加密算法标准化和产业化工作都在推进中。由于抗量子加密涉及的技术基于经典 物理,全面部署此类加密方案所需要解决的技术困难,相较于量子计算机的制造要小得多。 科技发展日新月异,曾经颇具神秘感的量子计算机,如今已逐渐为人们所熟知。一些传言也随之而来, 比如"量子计算机可瞬间破解所有密码""银行账户将集体裸奔"。这是真的吗? 量子计算机,简单而言,是完全遵循量子力学原理进行信息处理的计算机。与之相对的,是我们日常所 用的电脑、智能手机等,是基于经典物理规律运转的计算机。 一方面,当前量子计算机的研制整体上依然处于初级阶段。主要原因在于量子力学的特殊性质对环境是 有极为苛刻的要求;同时,计算本身是复杂且精密的任务,需要对处于量子状态的物质进行精准无误的 操控。截至目前,虽然超导量子电路、光量子等技术路线都相继取得了一些阶段性成果,但还远远达不 到成熟的地步。主要的困难在于如何进一步提高量子计算机的规模,以及如何及时纠错,从而保证更久 的工作时间。 所以,一般而言,除少数特别设计的任务之外,现有技术下的量子计 ...
算法“破茧”非一日之功
Jing Ji Ri Bao· 2025-06-17 22:21
打开短视频平台,哗众取宠的内容似乎总刷不完;浏览社交软件,每一条推送似乎都是"量身定制"…… 算法推荐技术编织的"信息茧房"和低俗内容陷阱,困扰着不少网民。针对这些算法推荐乱象,中央网信 办督导重点平台进行整改,取得了一定效果。近日,一些重点平台系统性优化完善多项功能。但算法失 范的深层治理,远非一日之功。 算法推荐技术已深度融入经济社会发展的各个领域和场景。它通过抓取用户日常使用数据,分析用户行 为、习惯和偏好,从而精准提供信息、娱乐、消费等各类服务。可以说,算法推荐在很大程度上帮助用 户过滤掉冗余信息,提高了信息获取效率,解决了信息过载问题,成为平台吸引高黏性用户、驱动增长 的重要方式。 但作为一种技术工具,算法推荐也是一把"双刃剑",一旦运用失范,不可避免地会产生一些乱象。首要 问题是同质化内容过多,形成"信息茧房"。算法推荐以用户偏好为导向,持续推送大量同类内容,将用 户隔绝在一个封闭的信息空间中,阻碍了多样信息流动,长此以往可能使用户对真实复杂世界的认知出 现偏差,加剧观点极化。 低俗信息现象也不容轻视。算法推荐往往遵循"流量至上"的价值取向,一些猎奇、肤浅、低俗的内容往 往成为算法推荐的"宠儿"。 ...
跨界工商储!这家AI企业拟100%收购阳光优储
行家说储能· 2025-06-17 11:25
又一家企业跨界进军工商业用户侧储能! 6月16日晚,泰禾智能公告称,为拓展工商业用户侧储能业务,拟筹划收购控股股东阳光新能源全资子公司阳光优储100%股权,交易价格不超过 5000万元。 ■ AI识别企业为何"0经验"跨界储能? 泰禾智能指出,本次交易系跨界收购,公司自身从未从事工商业用户侧储能业务,没有相关的技术人员储备,存在较大的跨界经营风险 。 但同 时"对公司整体经营影响较小"。 据了解,泰禾智能是一家基于AI视觉识别的成套智能化装备和服务提供商, 当前核心业务为智能检测分选装备、智能包装装备两大业务。2024年 泰禾智能实现营业收入5.64亿元,同比增长10.68%;归属于上市公司股东的净利润2146.96万元,同比大幅增长89.89%。 近年来,泰禾智能在光谱检测、智能算法和工业机器人自动化等方面具备一定积累,并积极拓展新能源业务领域。此番交易意图收购控股股东阳光 新能源旗下的储能资产,标志着其新能源延伸战略迈出实质性一步。 泰禾智能表示,本次交易是公司基于工商业用户侧储能业务发展潜力的判断,工商业用户侧储能行业受电价分时价差影响,其风险主要在于电力市 场价格波动的不确定性。 纵观当前工商业用户侧 ...
人力资源快讯:去哪儿举办客服节,一周可4天居家办公
Sou Hu Cai Jing· 2025-06-17 10:07
一、去哪儿旅行举办客服节:客服一周可4天居家办公,每年享1200元旅游基金 6月16日,去哪儿旅行举办客服节,首度推出"NICE美好同行"服务理念。即敏捷响应(Nimble)、创新驱动(Innovative)、共情用户(Caring)、专业可靠 (Expert)。去哪儿也首次披露了针对客服的一系列福利政策。包括春节可以提前一个月返乡居家办公、一周最多可以选择四天居家办公,以及每年1200元 的旅游基金。 此外,去哪儿宣布,还将不断完善客服培养体系,并借力AI的基础建设,帮助更多年轻的客服更快成长为行业专家。 二、美的集团:在广州成立电商新公司 爱企查App显示,近日,美的(广州)电子商务有限公司成立,法定代表人为朱垂才,注册资本1000万元人民币,经营范围包括人工智能硬件销售、电子产 品销售、家用电器安装服务、智能无人飞行器销售等。股权穿透图显示,该公司由美的集团股份有限公司及旗下佛山市美的空调工业投资有限公司共同持 股。 三、腾讯:首办生成式推荐算法大赛招聘AI人才 6月16日,腾讯发起算法大赛,拿出数百万奖金池和校招Offer吸引全球人才。这是腾讯继启动史上最大规模招聘计划之后,首次通过有奖励的比赛助力优 ...